周大 发表于 前天 14:29

英伟达ProRL新方法训练2000步,1.5B模型媲美7B,强化学习Scaling Law显成效

英伟达团队推出ProRL新方法,将强化学习训练扩展至2000步,显著提升LLM推理能力。基于此方法,1.5B参数模型性能媲美Deepseek-R1-7B,在数学、编程等领域分别提升14.7%、13.9%。研究证实,长时间强化学习可解锁新推理技能,解决熵坍缩与训练不稳定问题,并在分布外任务中展现强大泛化能力,验证了强化学习Scaling Law的有效性。
来源:https://mp.weixin.qq.com/s/WwLzBO-EZLwsZM9weaGufQ
页: [1]
查看完整版本: 英伟达ProRL新方法训练2000步,1.5B模型媲美7B,强化学习Scaling Law显成效