RL真让大模型更会推理?清华新研究:其能力边界或仍被基座「锁死」

[复制链接]
周大 发表于 2025-4-25 14:12:22 | 显示全部楼层 |阅读模式
清华大学LeapLab与上海交大的研究揭示,RLVR虽提升大模型采样效率,但并未突破基座模型的能力上限。实验通过pass@k指标对比发现,强化学习训练后的模型在小采样次数下表现更优,但在大规模采样时被基座模型反超。研究显示,RLVR仅筛选高奖励路径,无法赋予模型全新推理能力,甚至可能限制问题解决的多样性。论文发布后引发热议,提醒业界关注基础模型潜力及架构创新的重要性。
来源:https://mp.weixin.qq.com/s/2-GDxs8j1QYh1VnW9iBnXw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 11:52 , Processed in 0.283912 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表