英伟达ProRL新方法训练2000步，1.5B模型媲美7B，强化学习Scaling Law显成效

周大发表于 2025-6-22 14:29:17

英伟达团队推出ProRL新方法，将强化学习训练扩展至2000步，显著提升LLM推理能力。基于此方法，1.5B参数模型性能媲美Deepseek-R1-7B，在数学、编程等领域分别提升14.7%、13.9%。研究证实，长时间强化学习可解锁新推理技能，解决熵坍缩与训练不稳定问题，并在分布外任务中展现强大泛化能力，验证了强化学习Scaling Law的有效性。
来源：https://mp.weixin.qq.com/s/WwLzBO-EZLwsZM9weaGufQ

页: [1]

靠浦ai课堂's Archiver

英伟达ProRL新方法训练2000步，1.5B模型媲美7B，强化学习Scaling Law显成效