DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了

[复制链接]
周大 发表于 2025-2-21 14:36:26 | 显示全部楼层 |阅读模式
清华大学与阶跃星辰的研究表明,使用普通的PPO算法及简单规则奖励函数,配合精心设计的数据集,可以实现与DeepSeek-R1-Zero相当甚至更优的推理能力。新开发的开源项目Open-Reasoner-Zero不仅在GPQA Diamond基准测试中表现出色,还仅需DeepSeek-R1-Zero约1/30的训练步数。该研究挑战了此前认为复杂的GRPO算法对推理模型至关重要的观点,证明了简化方法的有效性,为大规模强化学习提供了新的思路。
来源:https://mp.weixin.qq.com/s/nT2KTyrsgkv-ztXN2CK_Lw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 13:46 , Processed in 0.349387 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表