周大 发表于 2025-2-21 14:36:26

DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了

清华大学与阶跃星辰的研究表明,使用普通的PPO算法及简单规则奖励函数,配合精心设计的数据集,可以实现与DeepSeek-R1-Zero相当甚至更优的推理能力。新开发的开源项目Open-Reasoner-Zero不仅在GPQA Diamond基准测试中表现出色,还仅需DeepSeek-R1-Zero约1/30的训练步数。该研究挑战了此前认为复杂的GRPO算法对推理模型至关重要的观点,证明了简化方法的有效性,为大规模强化学习提供了新的思路。
来源:https://mp.weixin.qq.com/s/nT2KTyrsgkv-ztXN2CK_Lw
页: [1]
查看完整版本: DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了