上海AI实验室等提出全新奖励模型POLAR,1.8B小模型超越70B巨兽

[复制链接]
周大 发表于 2025-7-11 14:55:31 | 显示全部楼层 |阅读模式
POLAR是一种全新的奖励模型,由上海人工智能实验室与复旦大学联合开发,采用对比学习范式,通过衡量模型输出与参考答案之间的“距离”打分,显著减少对人工标注数据的依赖。实测显示,POLAR-1.8B和POLAR-7B在多项任务中超越当前最优奖励模型,甚至可媲美参数量大其数十倍的模型,并展现出良好Scaling效应,为强化学习链路扩展提供了新路径。
来源:https://mp.weixin.qq.com/s/gmusuAy_OKPDxMl-ID9tTQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 23:26 , Processed in 0.286347 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表