SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

周大发表于 2025-2-9 14:13:03

清华、CMU和IN.AI的研究团队深入探究了长CoT在大模型中的工作机制与优化策略。研究表明，虽然SFT不是必需的，但它可以简化训练并提高效率；推理能力随着训练计算的增加而出现，但并非总是如此。研究团队通过实验发现，长CoT SFT能够显著提高模型性能，并且在RL的作用下还能进一步改进。此外，可验证奖励函数对CoT扩展至关重要，而基模型中自带的纠错等技能需要大量计算才能被有效激励。研究采用Llama-3.1-8B（Meta）和Llama-3.1-8B（阿里通义）两款基础模型及四个代表性推理基准进行测试，为长CoT的发展提供了重要见解。
来源：https://mp.weixin.qq.com/s/5DIoA-R_PLAAvAATPXgbVg

		自动登录	找回密码
密码			立即注册

课程导航

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒