周大 发表于 2025-7-6 14:36:13

研究揭示:多模态大模型推理链增长加剧幻觉,视觉编码器进化成关键解法

斯坦福等高校研究发现,多模态大模型(MLLMs)在使用更长推理链时反而会产生更多幻觉,因其倾向于依赖语言先验而忽视视觉输入。相比仅涉及语言错误的大语言模型(LLMs),MLLMs 幻觉还表现为图像理解偏差。当前模型结构中视觉特征被压缩、语言模型占主导,加之训练机制缺乏跨模态约束,加剧了这一问题。研究指出,改进视觉编码器与训练策略是缓解幻觉的关键方向。
来源:https://mp.weixin.qq.com/s/I7E_Nxpa-tZrAY085yZLhQ
页: [1]
查看完整版本: 研究揭示:多模态大模型推理链增长加剧幻觉,视觉编码器进化成关键解法