上海交大团队研发MG-LLaVA,提升多模态语言模型视觉理解能力

[复制链接]
周大 发表于 2024-7-11 16:19:16 | 显示全部楼层 |阅读模式
上海交通大学的研究团队开发了一种名为MG-LLaVA的多模态大语言模型,旨在解决当前模型处理低分辨率图像的局限性。MG-LLaVA通过引入多粒度视觉流,能同时处理不同分辨率和物体级特征,从而在视觉理解任务中表现出色。在多个视觉大模型评测中,MG-LLaVA取得了领先成绩,显示了其在提升视觉处理能力方面的创新效果。
来源:https://mp.weixin.qq.com/s/6M6LDfjeinb2IeG7c4zvtQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 05:21 , Processed in 0.314232 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表