奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
上海人工智能实验室提出了一种新型可扩展奖励建模方法POLAR,该方法通过策略判别学习,克服了传统奖励模型在灵活性和扩展性方面的局限。POLAR基于参考答案对模型输出打分,支持多场景定制,并通过对比学习建模策略分布距离,减少对人工标注数据的依赖。实验显示,POLAR具备良好的Scaling效应,在多项任务中表现优于现有最优模型,且在强化微调中展现出更强泛化能力,为打通强化学习链路扩展提供了新路径。来源:https://mp.weixin.qq.com/s/hU3MKn82o1sMy4CK-CUUug
页:
[1]