SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒
清华、CMU和IN.AI的研究团队深入探究了长CoT在大模型中的工作机制与优化策略。研究表明,虽然SFT不是必需的,但它可以简化训练并提高效率;推理能力随着训练计算的增加而出现,但并非总是如此。研究团队通过实验发现,长CoT SFT能够显著提高模型性能,并且在RL的作用下还能进一步改进。此外,可验证奖励函数对CoT扩展至关重要,而基模型中自带的纠错等技能需要大量计算才能被有效激励。研究采用Llama-3.1-8B(Meta)和Llama-3.1-8B(阿里通义)两款基础模型及四个代表性推理基准进行测试,为长CoT的发展提供了重要见解。来源:https://mp.weixin.qq.com/s/5DIoA-R_PLAAvAATPXgbVg
页:
[1]