微软提出「强化预训练」新范式,用强化学习提升语言模型预训练效果
微软提出了一种名为“强化预训练(RPT)”的新范式,将传统下一个 token 预测任务转化为强化学习推理任务。RPT 利用海量无标注文本数据,无需领域特定标注,显著提升了语言建模准确性,并为后续强化微调提供了强大基础。实验结果表明,RPT 在不同难度测试集上的表现优于基线方法,且性能接近更大规模模型。此外,RPT 的 scaling 特性显示其预测准确性随训练计算量增加而持续提升。尽管如此,社区对该方法的有效性和前景仍持观望态度。这一研究为强化学习在预训练阶段的应用开辟了新方向,可能改变当前 AI 模型的训练范式。来源:https://mp.weixin.qq.com/s/UABVUoHYTDlFWWNvD5R9Og
页:
[1]