周大 发表于 2025-5-29 14:18:14

虚假奖励信号显著提升Qwen模型性能,数学推理能力增益达25%,颠覆传统RLVR认知

华盛顿大学研究发现,即使使用虚假或随机奖励信号,Qwen2.5-Math模型在RLVR训练下仍能显著提升数学推理性能,MATH-500准确率提升约25%。研究表明,性能提升源于激活预训练中的代码推理能力,而非奖励信号正确性。然而,该现象仅适用于Qwen系列模型,其他模型表现平平甚至下降。研究提示,未来RLVR研究需关注跨模型验证,避免单一模型导向。
来源:https://mp.weixin.qq.com/s/J54SU9M-h8v2Mz2AJdXJXA
页: [1]
查看完整版本: 虚假奖励信号显著提升Qwen模型性能,数学推理能力增益达25%,颠覆传统RLVR认知