周大 发表于 2025-5-18 14:51:40

刚刚!北大校友Lilian Weng最新博客来了:Why We Think

Lilian Weng 发表了一篇关于测试时计算(“思考时间”)及其作用机制的文章,探讨了通过延长模型思考时间来提升其在复杂任务上的表现。文章指出,思维链(CoT)和测试时计算策略的优化显著提高了模型性能,尤其是在逻辑推理和长文本理解方面。同时,文章深入分析了并行采样与序列修订两种主要策略,并强调强化学习在提升 CoT 推理能力中的重要作用。此外,文章提出了未来研究方向,包括如何让模型更高效地利用有限的计算资源以及避免潜在问题如 reward hacking。
来源:https://mp.weixin.qq.com/s/fcDRzd3cwuM_JOnQW5XRMQ
页: [1]
查看完整版本: 刚刚!北大校友Lilian Weng最新博客来了:Why We Think