RL真让大模型更会推理？清华新研究：其能力边界或仍被基座「锁死」

周大发表于 2025-4-25 14:12:22

清华大学LeapLab与上海交大的研究揭示，RLVR虽提升大模型采样效率，但并未突破基座模型的能力上限。实验通过pass@k指标对比发现，强化学习训练后的模型在小采样次数下表现更优，但在大规模采样时被基座模型反超。研究显示，RLVR仅筛选高奖励路径，无法赋予模型全新推理能力，甚至可能限制问题解决的多样性。论文发布后引发热议，提醒业界关注基础模型潜力及架构创新的重要性。
来源：https://mp.weixin.qq.com/s/2-GDxs8j1QYh1VnW9iBnXw

页: [1]

靠浦ai课堂's Archiver

RL真让大模型更会推理？清华新研究：其能力边界或仍被基座「锁死」