微软提出「强化预训练」新范式,用强化学习提升语言模型预训练效果

[复制链接]
周大 发表于 前天 15:48 | 显示全部楼层 |阅读模式
微软提出了一种名为“强化预训练(RPT)”的新范式,将传统下一个 token 预测任务转化为强化学习推理任务。RPT 利用海量无标注文本数据,无需领域特定标注,显著提升了语言建模准确性,并为后续强化微调提供了强大基础。实验结果表明,RPT 在不同难度测试集上的表现优于基线方法,且性能接近更大规模模型。此外,RPT 的 scaling 特性显示其预测准确性随训练计算量增加而持续提升。尽管如此,社区对该方法的有效性和前景仍持观望态度。这一研究为强化学习在预训练阶段的应用开辟了新方向,可能改变当前 AI 模型的训练范式。
来源:https://mp.weixin.qq.com/s/UABVUoHYTDlFWWNvD5R9Og

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-13 10:08 , Processed in 0.319603 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表