周大 发表于 2025-5-12 14:47:15

R1-Reward:强化学习优化多模态奖励模型

研究团队提出 R1-Reward 多模态奖励模型及 StableReinforce 算法,解决了强化学习训练中的不稳定性问题。新方法通过 Pre-CLIP、优势过滤器和一致性奖励机制优化模型表现,在多个基准测试中超越 SOTA 模型,准确率提升 5%-15%。实验显示,增加推理采样次数可显著提高性能。此外,R1-Reward 已成功应用于快手的短视频推荐等实际场景。
来源:https://mp.weixin.qq.com/s/PHGC6lQt5mXuieK6-8DiYw
页: [1]
查看完整版本: R1-Reward:强化学习优化多模态奖励模型