研究揭示：多模态大模型推理链增长加剧幻觉，视觉编码器进化成关键解法

周大发表于 2025-7-6 14:36:13

斯坦福等高校研究发现，多模态大模型（MLLMs）在使用更长推理链时反而会产生更多幻觉，因其倾向于依赖语言先验而忽视视觉输入。相比仅涉及语言错误的大语言模型（LLMs），MLLMs 幻觉还表现为图像理解偏差。当前模型结构中视觉特征被压缩、语言模型占主导，加之训练机制缺乏跨模态约束，加剧了这一问题。研究指出，改进视觉编码器与训练策略是缓解幻觉的关键方向。
来源：https://mp.weixin.qq.com/s/I7E_Nxpa-tZrAY085yZLhQ

页: [1]

靠浦ai课堂's Archiver

研究揭示：多模态大模型推理链增长加剧幻觉，视觉编码器进化成关键解法