DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了
清华大学与阶跃星辰的研究表明,使用普通的PPO算法及简单规则奖励函数,配合精心设计的数据集,可以实现与DeepSeek-R1-Zero相当甚至更优的推理能力。新开发的开源项目Open-Reasoner-Zero不仅在GPQA Diamond基准测试中表现出色,还仅需DeepSeek-R1-Zero约1/30的训练步数。该研究挑战了此前认为复杂的GRPO算法对推理模型至关重要的观点,证明了简化方法的有效性,为大规模强化学习提供了新的思路。来源:https://mp.weixin.qq.com/s/nT2KTyrsgkv-ztXN2CK_Lw
页:
[1]