超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程

[复制链接]
周大 发表于 2025-2-8 16:16:42 | 显示全部楼层 |阅读模式
微软和剑桥大学提出多模态思维可视化(MVoT),该方法融合文本和图像信息进行推理,在复杂场景下的性能比传统思维链(CoT)高出20%。MVoT通过引入token差异损失提升了推理过程的可视化质量,并且在多个空间推理任务中表现出色。特别是在FROZENLAKE任务中,MVoT的准确率达到85.60%,显著优于其他方法。此外,MVoT与CoT组合使用可以进一步提升模型性能,达到更高的准确率。
来源:https://mp.weixin.qq.com/s/JwXYrDxiajnv0tNUuOPYFg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 00:34 , Processed in 0.320338 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表