周大 发表于 2025-4-25 14:12:22

RL真让大模型更会推理?清华新研究:其能力边界或仍被基座「锁死」

清华大学LeapLab与上海交大的研究揭示,RLVR虽提升大模型采样效率,但并未突破基座模型的能力上限。实验通过pass@k指标对比发现,强化学习训练后的模型在小采样次数下表现更优,但在大规模采样时被基座模型反超。研究显示,RLVR仅筛选高奖励路径,无法赋予模型全新推理能力,甚至可能限制问题解决的多样性。论文发布后引发热议,提醒业界关注基础模型潜力及架构创新的重要性。
来源:https://mp.weixin.qq.com/s/2-GDxs8j1QYh1VnW9iBnXw
页: [1]
查看完整版本: RL真让大模型更会推理?清华新研究:其能力边界或仍被基座「锁死」