类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%
中科院自动化研究所与中科紫东太初团队提出 Vision-R1 方法,通过结合高质量指令对齐数据与类 R1 的强化学习技术,显著提升图文大模型的视觉定位能力。该方法在 Object Detection 和 Visual Grounding 等任务中使 Qwen2.5-VL 模型性能提升最高达 50%,超越参数规模超 10 倍的 SOTA 模型。Vision-R1 设计了基于视觉任务评价准则驱动的奖励函数,并引入渐进式规则调整策略优化模型表现。实验结果表明,Vision-R1 在经典 COCO 和 ODINW 数据集上大幅超越基线模型,同时在域外数据集上实现平均 6% 的性能提升,且几乎不损失模型通用能力。相关论文、模型及代码已开源。来源:https://mp.weixin.qq.com/s/BsqAjmK8Qep3w7WjYsM4fQ
页:
[1]