上海AI实验室等提出全新奖励模型POLAR，1.8B小模型超越70B巨兽

周大发表于 2025-7-11 14:55:31

POLAR是一种全新的奖励模型，由上海人工智能实验室与复旦大学联合开发，采用对比学习范式，通过衡量模型输出与参考答案之间的“距离”打分，显著减少对人工标注数据的依赖。实测显示，POLAR-1.8B和POLAR-7B在多项任务中超越当前最优奖励模型，甚至可媲美参数量大其数十倍的模型，并展现出良好Scaling效应，为强化学习链路扩展提供了新路径。
来源：https://mp.weixin.qq.com/s/gmusuAy_OKPDxMl-ID9tTQ

		自动登录	找回密码
密码			立即注册

课程导航

上海AI实验室等提出全新奖励模型POLAR，1.8B小模型超越70B巨兽