周大 发表于 2024-7-7 15:58:22

多模态模型解析:图像信息深层影响减弱,浅层交互关键

上海交通大学和阿里巴巴的研究团队近期对多模态大模型展开深入研究,通过信息流方法和Grad-CAM技术,揭示了模型内部图像与文本的交互过程。研究发现,尽管图像token在模型浅层与文本有显著交互,但在深层推理过程中影响较弱。为解决浅层图像信息冗余问题,研究者提出注意力分数截断策略,有效提升模型在复杂推理任务中的准确率,表明模型在深层主要依赖内在知识进行推理。
来源:https://mp.weixin.qq.com/s/dF4QltattjndvXMX92gutA
页: [1]
查看完整版本: 多模态模型解析:图像信息深层影响减弱,浅层交互关键