周大 发表于 2025-7-21 14:10:59

突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

复旦大学与南洋理工大学研究团队提出 MGPO,一种无需 Grounding 标注、基于强化学习的多模态视觉推理方法,用于解决高分辨率图像处理中的视觉 Token 冗余与关键信息丢失问题。该方法通过多轮交互自动定位图像关键区域并裁剪子图进行分析,具备可解释性和高效性。实验结果显示,MGPO 在 MME-Realworld 和 V* Bench 基准上分别提升 5.4% 和 5.2%,且在 V* Bench 上超越了 OpenAI 的 GPT-4o 和 o1 模型。研究证实,仅通过最终答案反馈即可让模型自主学习视觉定位能力,降低了对昂贵标注数据的依赖。
来源:https://mp.weixin.qq.com/s/K_MOiW2wgVGf5tkjSleyKQ
页: [1]
查看完整版本: 突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO