类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

[复制链接]
周大 发表于 2025-4-8 13:51:48 | 显示全部楼层 |阅读模式
中科院自动化研究所与中科紫东太初团队提出 Vision-R1 方法,通过结合高质量指令对齐数据与类 R1 的强化学习技术,显著提升图文大模型的视觉定位能力。该方法在 Object Detection 和 Visual Grounding 等任务中使 Qwen2.5-VL 模型性能提升最高达 50%,超越参数规模超 10 倍的 SOTA 模型。Vision-R1 设计了基于视觉任务评价准则驱动的奖励函数,并引入渐进式规则调整策略优化模型表现。实验结果表明,Vision-R1 在经典 COCO 和 ODINW 数据集上大幅超越基线模型,同时在域外数据集上实现平均 6% 的性能提升,且几乎不损失模型通用能力。相关论文、模型及代码已开源。
来源:https://mp.weixin.qq.com/s/BsqAjmK8Qep3w7WjYsM4fQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 07:25 , Processed in 0.266839 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表