奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式

[复制链接]
周大 发表于 2025-7-11 15:01:05 | 显示全部楼层 |阅读模式
上海人工智能实验室提出了一种新型可扩展奖励建模方法POLAR,该方法通过策略判别学习,克服了传统奖励模型在灵活性和扩展性方面的局限。POLAR基于参考答案对模型输出打分,支持多场景定制,并通过对比学习建模策略分布距离,减少对人工标注数据的依赖。实验显示,POLAR具备良好的Scaling效应,在多项任务中表现优于现有最优模型,且在强化微调中展现出更强泛化能力,为打通强化学习链路扩展提供了新路径。
来源:https://mp.weixin.qq.com/s/hU3MKn82o1sMy4CK-CUUug

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 23:20 , Processed in 0.304717 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表