英伟达ProRL框架揭示RL Scaling魔力,小模型通过长期训练突破推理极限
NVIDIA 提出的 ProRL 框架通过大幅延长 RL 训练步数(超过 2000 步),显著提升了小模型的推理能力。研究表明,ProRL 不仅能让模型解答原本完全无法完成的任务,还能在数学、代码生成和逻辑推理等任务中分别实现 14.7%、6.5% 和 54.8% 的性能提升。此外,研究揭示 RL 的增益与基础模型初始表现呈负相关,对预训练数据覆盖不足的任务效果更明显。通过多样化奖励机制、改进算法组合以及 KL 正则化等技术,ProRL 实现了更稳定和高效的训练流程,为开发低成本、高性能的小模型提供了新思路。来源:https://mp.weixin.qq.com/s/RmeTW83hjTQYJLpl435o6A
页:
[1]