超越CoT！微软剑桥中科院提出MVoT，直接可视化多模态推理过程

周大发表于 2025-2-8 16:16:42

微软和剑桥大学提出多模态思维可视化（MVoT），该方法融合文本和图像信息进行推理，在复杂场景下的性能比传统思维链（CoT）高出20%。MVoT通过引入token差异损失提升了推理过程的可视化质量，并且在多个空间推理任务中表现出色。特别是在FROZENLAKE任务中，MVoT的准确率达到85.60%，显著优于其他方法。此外，MVoT与CoT组合使用可以进一步提升模型性能，达到更高的准确率。
来源：https://mp.weixin.qq.com/s/JwXYrDxiajnv0tNUuOPYFg

页: [1]

靠浦ai课堂's Archiver

超越CoT！微软剑桥中科院提出MVoT，直接可视化多模态推理过程