更长思维并不等于更强推理性能,强化学习可以很简洁
一项来自 Wand AI 的研究表明,推理模型生成较长响应的原因在于强化学习训练机制,而非更高的准确度需求。当模型因错误答案获得负奖励时,PPO 损失函数会促使响应变长以稀释惩罚。研究还发现,错误答案通常伴随更长响应,而正确答案则更简洁。为解决这一问题,团队提出了一种两阶段强化学习策略:第一阶段用高难度问题增强模型能力,第二阶段通过偶尔可解问题优化简洁性。实验表明,该方法显著减少了响应长度,同时保持甚至提升了准确度,并增强了模型稳健性。来源:https://mp.weixin.qq.com/s/CXUScYyWJiTif0k8XpgQ4Q
页:
[1]