DeepSeek-R1用的GRPO其实非最优？规模化强化学习训练用PPO就够了

周大发表于 2025-2-21 14:36:26

清华大学与阶跃星辰的研究表明，使用普通的PPO算法及简单规则奖励函数，配合精心设计的数据集，可以实现与DeepSeek-R1-Zero相当甚至更优的推理能力。新开发的开源项目Open-Reasoner-Zero不仅在GPQA Diamond基准测试中表现出色，还仅需DeepSeek-R1-Zero约1/30的训练步数。该研究挑战了此前认为复杂的GRPO算法对推理模型至关重要的观点，证明了简化方法的有效性，为大规模强化学习提供了新的思路。
来源：https://mp.weixin.qq.com/s/nT2KTyrsgkv-ztXN2CK_Lw

		自动登录	找回密码
密码			立即注册

课程导航

DeepSeek-R1用的GRPO其实非最优？规模化强化学习训练用PPO就够了