不蒸馏R1也能超越DeepSeek，上海 AI Lab 用RL突破数学推理极限

周大发表于 2025-2-16 15:55:26

上海AI Lab提出基于结果奖励的强化学习新范式，解决了大模型数学推理任务中的三大难题：稀疏奖励困境、局部正确陷阱和规模依赖魔咒。团队通过严格的理论推导，设计了新的强化学习算法OREAL，该算法通过对正样本模仿学习、对负样本偏好学习以及对关键步骤重点学习，实现了无需蒸馏超大模型即可超越现有顶尖模型的数学推理性能。实验结果显示，在7B和32B两个规模的模型上，OREAL分别取得了91.0%和95.0%的pass@1准确率。此外，研究团队将所有相关数据和模型开源，以推动社区的公平比较和进一步研究。
来源：https://mp.weixin.qq.com/s/o6csP1xSdg6gISXVmrnNcw

页: [1]

靠浦ai课堂's Archiver

不蒸馏R1也能超越DeepSeek，上海 AI Lab 用RL突破数学推理极限