不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限

[复制链接]
周大 发表于 2025-2-16 15:55:26 | 显示全部楼层 |阅读模式
上海AI Lab提出基于结果奖励的强化学习新范式,解决了大模型数学推理任务中的三大难题:稀疏奖励困境、局部正确陷阱和规模依赖魔咒。团队通过严格的理论推导,设计了新的强化学习算法OREAL,该算法通过对正样本模仿学习、对负样本偏好学习以及对关键步骤重点学习,实现了无需蒸馏超大模型即可超越现有顶尖模型的数学推理性能。实验结果显示,在7B和32B两个规模的模型上,OREAL分别取得了91.0%和95.0%的pass@1准确率。此外,研究团队将所有相关数据和模型开源,以推动社区的公平比较和进一步研究。
来源:https://mp.weixin.qq.com/s/o6csP1xSdg6gISXVmrnNcw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-14 21:57 , Processed in 0.267999 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表