微软提出「强化预训练」新范式，用强化学习提升语言模型预训练效果

周大发表于 2025-6-11 15:48:40

微软提出了一种名为“强化预训练（RPT）”的新范式，将传统下一个 token 预测任务转化为强化学习推理任务。RPT 利用海量无标注文本数据，无需领域特定标注，显著提升了语言建模准确性，并为后续强化微调提供了强大基础。实验结果表明，RPT 在不同难度测试集上的表现优于基线方法，且性能接近更大规模模型。此外，RPT 的 scaling 特性显示其预测准确性随训练计算量增加而持续提升。尽管如此，社区对该方法的有效性和前景仍持观望态度。这一研究为强化学习在预训练阶段的应用开辟了新方向，可能改变当前 AI 模型的训练范式。
来源：https://mp.weixin.qq.com/s/UABVUoHYTDlFWWNvD5R9Og

		自动登录	找回密码
密码			立即注册

课程导航

微软提出「强化预训练」新范式，用强化学习提升语言模型预训练效果