周大 发表于 2025-3-11 15:11:43

大模型全军覆没,中科院自动化所推出多图数学推理新基准

中国科学院自动化研究所推出了多图数学推理数据集MV-MATH,包含2009个高质量问题,涵盖11个数学领域。实验评估了24个主流多模态大模型,结果表明即使是最先进的模型如Claude-3.5,其准确率也仅为33.9%,远低于人类的76.5%。研究发现,MLLM在处理复杂图像理解和跨图像相互依赖关系时存在显著困难,特别是在多图推理任务中,序列输入表现优于合并输入,凸显了MLLM在多视觉环境中推理能力的局限性。
来源:https://mp.weixin.qq.com/s/Yk2owhKsa9oJ2xHFLzazuw
页: [1]
查看完整版本: 大模型全军覆没,中科院自动化所推出多图数学推理新基准