刚刚！北大校友Lilian Weng最新博客来了：Why We Think

周大发表于 2025-5-18 14:51:40

Lilian Weng 发表了一篇关于测试时计算（“思考时间”）及其作用机制的文章，探讨了通过延长模型思考时间来提升其在复杂任务上的表现。文章指出，思维链（CoT）和测试时计算策略的优化显著提高了模型性能，尤其是在逻辑推理和长文本理解方面。同时，文章深入分析了并行采样与序列修订两种主要策略，并强调强化学习在提升 CoT 推理能力中的重要作用。此外，文章提出了未来研究方向，包括如何让模型更高效地利用有限的计算资源以及避免潜在问题如 reward hacking。
来源：https://mp.weixin.qq.com/s/fcDRzd3cwuM_JOnQW5XRMQ

页: [1]

靠浦ai课堂's Archiver

刚刚！北大校友Lilian Weng最新博客来了：Why We Think