清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

周大发表于 2025-11-13 17:34:23

清华团队提出极简强化学习方法JustRL，仅用单阶段训练与固定超参数，在两个1.5B模型上分别取得54.87%和64.32%的数学推理平均准确率，达到SOTA水平。其总token预算为1.4E+11，仅为同类方法的一半至五分之一，且训练过程稳定，4000步内无熵崩塌或性能 plateau。研究发现，添加长度惩罚或宽松验证器反而降低性能，提示在充分扩展下，简单方法潜力被低估，应优先验证其极限再引入复杂性。
来源：https://mp.weixin.qq.com/s/F4zvQfWusb-QetDi-ReErg

		自动登录	找回密码
密码			立即注册

课程导航

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能