上海交大团队研发MG-LLaVA，提升多模态语言模型视觉理解能力

周大发表于 2024-7-11 16:19:16

上海交通大学的研究团队开发了一种名为MG-LLaVA的多模态大语言模型，旨在解决当前模型处理低分辨率图像的局限性。MG-LLaVA通过引入多粒度视觉流，能同时处理不同分辨率和物体级特征，从而在视觉理解任务中表现出色。在多个视觉大模型评测中，MG-LLaVA取得了领先成绩，显示了其在提升视觉处理能力方面的创新效果。
来源：https://mp.weixin.qq.com/s/6M6LDfjeinb2IeG7c4zvtQ

页: [1]

靠浦ai课堂's Archiver

上海交大团队研发MG-LLaVA，提升多模态语言模型视觉理解能力