不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
上海AI Lab提出基于结果奖励的强化学习新范式,解决了大模型数学推理任务中的三大难题:稀疏奖励困境、局部正确陷阱和规模依赖魔咒。团队通过严格的理论推导,设计了新的强化学习算法OREAL,该算法通过对正样本模仿学习、对负样本偏好学习以及对关键步骤重点学习,实现了无需蒸馏超大模型即可超越现有顶尖模型的数学推理性能。实验结果显示,在7B和32B两个规模的模型上,OREAL分别取得了91.0%和95.0%的pass@1准确率。此外,研究团队将所有相关数据和模型开源,以推动社区的公平比较和进一步研究。来源:https://mp.weixin.qq.com/s/o6csP1xSdg6gISXVmrnNcw
页:
[1]