更长思维并不等于更强推理性能，强化学习可以很简洁

周大发表于 2025-4-14 14:32:05

一项来自 Wand AI 的研究表明，推理模型生成较长响应的原因在于强化学习训练机制，而非更高的准确度需求。当模型因错误答案获得负奖励时，PPO 损失函数会促使响应变长以稀释惩罚。研究还发现，错误答案通常伴随更长响应，而正确答案则更简洁。为解决这一问题，团队提出了一种两阶段强化学习策略：第一阶段用高难度问题增强模型能力，第二阶段通过偶尔可解问题优化简洁性。实验表明，该方法显著减少了响应长度，同时保持甚至提升了准确度，并增强了模型稳健性。
来源：https://mp.weixin.qq.com/s/CXUScYyWJiTif0k8XpgQ4Q

页: [1]

靠浦ai课堂's Archiver

更长思维并不等于更强推理性能，强化学习可以很简洁