突破高分辨率图像推理瓶颈，复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

周大发表于 2025-7-21 14:10:59

复旦大学与南洋理工大学研究团队提出 MGPO，一种无需 Grounding 标注、基于强化学习的多模态视觉推理方法，用于解决高分辨率图像处理中的视觉 Token 冗余与关键信息丢失问题。该方法通过多轮交互自动定位图像关键区域并裁剪子图进行分析，具备可解释性和高效性。实验结果显示，MGPO 在 MME-Realworld 和 V* Bench 基准上分别提升 5.4% 和 5.2%，且在 V* Bench 上超越了 OpenAI 的 GPT-4o 和 o1 模型。研究证实，仅通过最终答案反馈即可让模型自主学习视觉定位能力，降低了对昂贵标注数据的依赖。
来源：https://mp.weixin.qq.com/s/K_MOiW2wgVGf5tkjSleyKQ

		自动登录	找回密码
密码			立即注册

课程导航

突破高分辨率图像推理瓶颈，复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO