研究揭示:多模态大模型推理链增长加剧幻觉,视觉编码器进化成关键解法

[复制链接]
周大 发表于 2025-7-6 14:36:13 | 显示全部楼层 |阅读模式
斯坦福等高校研究发现,多模态大模型(MLLMs)在使用更长推理链时反而会产生更多幻觉,因其倾向于依赖语言先验而忽视视觉输入。相比仅涉及语言错误的大语言模型(LLMs),MLLMs 幻觉还表现为图像理解偏差。当前模型结构中视觉特征被压缩、语言模型占主导,加之训练机制缺乏跨模态约束,加剧了这一问题。研究指出,改进视觉编码器与训练策略是缓解幻觉的关键方向。
来源:https://mp.weixin.qq.com/s/I7E_Nxpa-tZrAY085yZLhQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 09:24 , Processed in 0.293078 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表