奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式

[复制链接]
周大 发表于 2025-7-10 14:46:15 | 显示全部楼层 |阅读模式
强化学习在大语言模型后训练中面临奖励模型设计瓶颈,传统偏好建模依赖高成本标注数据,规则验证则难以适应通用任务。上海人工智能实验室与复旦大学联合提出 POLAR 奖励模型,采用策略判别学习,通过对比学习衡量策略分布间的“距离”,无需大量人工偏好数据即可完成训练。POLAR 分为预训练和微调两阶段,前者利用合成数据自动训练,后者仅需少量偏好样本。实验表明,POLAR 在偏好评估和强化学习效果上均优于当前最优模型,如 POLAR-7B 微调后使 Llama-3.1-8B 性能平均提升 9%。其参数效率高、Scaling 效应明显,展现出了构建通用奖励模型的新路径。
来源:https://mp.weixin.qq.com/s/IAJ9cmVa9QszodhYIdiknQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 04:00 , Processed in 0.273257 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表