英伟达ProRL新方法训练2000步,1.5B模型媲美7B,强化学习Scaling Law显成效

[复制链接]
周大 发表于 前天 14:29 | 显示全部楼层 |阅读模式
英伟达团队推出ProRL新方法,将强化学习训练扩展至2000步,显著提升LLM推理能力。基于此方法,1.5B参数模型性能媲美Deepseek-R1-7B,在数学、编程等领域分别提升14.7%、13.9%。研究证实,长时间强化学习可解锁新推理技能,解决熵坍缩与训练不稳定问题,并在分布外任务中展现强大泛化能力,验证了强化学习Scaling Law的有效性。
来源:https://mp.weixin.qq.com/s/WwLzBO-EZLwsZM9weaGufQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-24 07:50 , Processed in 0.288443 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表