强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

周大发表于 2025-4-13 14:14:41

近期研究显示，尽管强化学习被认为能提升语言模型推理性能，但其改进效果可能被夸大。研究表明，小型基准测试结果极不稳定，强化学习收益小于预期且常不具备统计显著性。相比之下，监督微调表现出更强的泛化能力。此外，评估过程中硬件、软件及随机种子等多因素均会影响性能，需标准化评估框架以提高可重复性。
来源：https://mp.weixin.qq.com/s/acQeGwuSaxZrl8Mo1GPDLQ

		自动登录	找回密码
密码			立即注册

课程导航

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展