靠浦ai课堂's Archiver
版块
›
靠浦ai资讯
› 强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
周大
发表于 2025-4-13 14:14:41
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
近期研究显示,尽管强化学习被认为能提升语言模型推理性能,但其改进效果可能被夸大。研究表明,小型基准测试结果极不稳定,强化学习收益小于预期且常不具备统计显著性。相比之下,监督微调表现出更强的泛化能力。此外,评估过程中硬件、软件及随机种子等多因素均会影响性能,需标准化评估框架以提高可重复性。
来源:https://mp.weixin.qq.com/s/acQeGwuSaxZrl8Mo1GPDLQ
页:
[1]
查看完整版本:
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展