强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

[复制链接]
周大 发表于 2025-4-13 14:14:41 | 显示全部楼层 |阅读模式
近期研究显示,尽管强化学习被认为能提升语言模型推理性能,但其改进效果可能被夸大。研究表明,小型基准测试结果极不稳定,强化学习收益小于预期且常不具备统计显著性。相比之下,监督微调表现出更强的泛化能力。此外,评估过程中硬件、软件及随机种子等多因素均会影响性能,需标准化评估框架以提高可重复性。
来源:https://mp.weixin.qq.com/s/acQeGwuSaxZrl8Mo1GPDLQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 19:15 , Processed in 0.283815 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表