R1-Reward：强化学习优化多模态奖励模型

周大发表于 2025-5-12 14:47:15

研究团队提出 R1-Reward 多模态奖励模型及 StableReinforce 算法，解决了强化学习训练中的不稳定性问题。新方法通过 Pre-CLIP、优势过滤器和一致性奖励机制优化模型表现，在多个基准测试中超越 SOTA 模型，准确率提升 5%-15%。实验显示，增加推理采样次数可显著提高性能。此外，R1-Reward 已成功应用于快手的短视频推荐等实际场景。
来源：https://mp.weixin.qq.com/s/PHGC6lQt5mXuieK6-8DiYw

		自动登录	找回密码
密码			立即注册

课程导航

R1-Reward：强化学习优化多模态奖励模型