SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒

[复制链接]
周大 发表于 2025-2-9 14:13:03 | 显示全部楼层 |阅读模式
清华、CMU和IN.AI的研究团队深入探究了长CoT在大模型中的工作机制与优化策略。研究表明,虽然SFT不是必需的,但它可以简化训练并提高效率;推理能力随着训练计算的增加而出现,但并非总是如此。研究团队通过实验发现,长CoT SFT能够显著提高模型性能,并且在RL的作用下还能进一步改进。此外,可验证奖励函数对CoT扩展至关重要,而基模型中自带的纠错等技能需要大量计算才能被有效激励。研究采用Llama-3.1-8B(Meta)和Llama-3.1-8B(阿里通义)两款基础模型及四个代表性推理基准进行测试,为长CoT的发展提供了重要见解。
来源:https://mp.weixin.qq.com/s/5DIoA-R_PLAAvAATPXgbVg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 23:48 , Processed in 0.299463 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表