大模型全军覆没，中科院自动化所推出多图数学推理新基准

周大发表于 2025-3-11 15:11:43

中国科学院自动化研究所推出了多图数学推理数据集MV-MATH，包含2009个高质量问题，涵盖11个数学领域。实验评估了24个主流多模态大模型，结果表明即使是最先进的模型如Claude-3.5，其准确率也仅为33.9%，远低于人类的76.5%。研究发现，MLLM在处理复杂图像理解和跨图像相互依赖关系时存在显著困难，特别是在多图推理任务中，序列输入表现优于合并输入，凸显了MLLM在多视觉环境中推理能力的局限性。
来源：https://mp.weixin.qq.com/s/Yk2owhKsa9oJ2xHFLzazuw

页: [1]

靠浦ai课堂's Archiver

大模型全军覆没，中科院自动化所推出多图数学推理新基准