R1-Reward:强化学习优化多模态奖励模型

[复制链接]
周大 发表于 2025-5-12 14:47:15 | 显示全部楼层 |阅读模式
研究团队提出 R1-Reward 多模态奖励模型及 StableReinforce 算法,解决了强化学习训练中的不稳定性问题。新方法通过 Pre-CLIP、优势过滤器和一致性奖励机制优化模型表现,在多个基准测试中超越 SOTA 模型,准确率提升 5%-15%。实验显示,增加推理采样次数可显著提高性能。此外,R1-Reward 已成功应用于快手的短视频推荐等实际场景。
来源:https://mp.weixin.qq.com/s/PHGC6lQt5mXuieK6-8DiYw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 10:23 , Processed in 0.301205 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表