上海交大团队研发MG-LLaVA,提升多模态语言模型视觉理解能力
上海交通大学的研究团队开发了一种名为MG-LLaVA的多模态大语言模型,旨在解决当前模型处理低分辨率图像的局限性。MG-LLaVA通过引入多粒度视觉流,能同时处理不同分辨率和物体级特征,从而在视觉理解任务中表现出色。在多个视觉大模型评测中,MG-LLaVA取得了领先成绩,显示了其在提升视觉处理能力方面的创新效果。来源:https://mp.weixin.qq.com/s/6M6LDfjeinb2IeG7c4zvtQ
页:
[1]