突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

[复制链接]
周大 发表于 2025-7-21 14:10:59 | 显示全部楼层 |阅读模式
复旦大学与南洋理工大学研究团队提出 MGPO,一种无需 Grounding 标注、基于强化学习的多模态视觉推理方法,用于解决高分辨率图像处理中的视觉 Token 冗余与关键信息丢失问题。该方法通过多轮交互自动定位图像关键区域并裁剪子图进行分析,具备可解释性和高效性。实验结果显示,MGPO 在 MME-Realworld 和 V* Bench 基准上分别提升 5.4% 和 5.2%,且在 V* Bench 上超越了 OpenAI 的 GPT-4o 和 o1 模型。研究证实,仅通过最终答案反馈即可让模型自主学习视觉定位能力,降低了对昂贵标注数据的依赖。
来源:https://mp.weixin.qq.com/s/K_MOiW2wgVGf5tkjSleyKQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 08:14 , Processed in 0.272735 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表