多模态模型解析:图像信息深层影响减弱,浅层交互关键

[复制链接]
周大 发表于 2024-7-7 15:58:22 | 显示全部楼层 |阅读模式
上海交通大学和阿里巴巴的研究团队近期对多模态大模型展开深入研究,通过信息流方法和Grad-CAM技术,揭示了模型内部图像与文本的交互过程。研究发现,尽管图像token在模型浅层与文本有显著交互,但在深层推理过程中影响较弱。为解决浅层图像信息冗余问题,研究者提出注意力分数截断策略,有效提升模型在复杂推理任务中的准确率,表明模型在深层主要依赖内在知识进行推理。
来源:https://mp.weixin.qq.com/s/dF4QltattjndvXMX92gutA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 04:41 , Processed in 0.294026 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表