清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

[复制链接]
周大 发表于 2025-11-13 17:34:23 | 显示全部楼层 |阅读模式
清华团队提出极简强化学习方法JustRL,仅用单阶段训练与固定超参数,在两个1.5B模型上分别取得54.87%和64.32%的数学推理平均准确率,达到SOTA水平。其总token预算为1.4E+11,仅为同类方法的一半至五分之一,且训练过程稳定,4000步内无熵崩塌或性能 plateau。研究发现,添加长度惩罚或宽松验证器反而降低性能,提示在充分扩展下,简单方法潜力被低估,应优先验证其极限再引入复杂性。
来源:https://mp.weixin.qq.com/s/F4zvQfWusb-QetDi-ReErg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 03:06 , Processed in 0.252738 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表