超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程
微软和剑桥大学提出多模态思维可视化(MVoT),该方法融合文本和图像信息进行推理,在复杂场景下的性能比传统思维链(CoT)高出20%。MVoT通过引入token差异损失提升了推理过程的可视化质量,并且在多个空间推理任务中表现出色。特别是在FROZENLAKE任务中,MVoT的准确率达到85.60%,显著优于其他方法。此外,MVoT与CoT组合使用可以进一步提升模型性能,达到更高的准确率。来源:https://mp.weixin.qq.com/s/JwXYrDxiajnv0tNUuOPYFg
页:
[1]