大模型全军覆没,中科院自动化所推出多图数学推理新基准

[复制链接]
周大 发表于 2025-3-11 15:11:43 | 显示全部楼层 |阅读模式
中国科学院自动化研究所推出了多图数学推理数据集MV-MATH,包含2009个高质量问题,涵盖11个数学领域。实验评估了24个主流多模态大模型,结果表明即使是最先进的模型如Claude-3.5,其准确率也仅为33.9%,远低于人类的76.5%。研究发现,MLLM在处理复杂图像理解和跨图像相互依赖关系时存在显著困难,特别是在多图推理任务中,序列输入表现优于合并输入,凸显了MLLM在多视觉环境中推理能力的局限性。
来源:https://mp.weixin.qq.com/s/Yk2owhKsa9oJ2xHFLzazuw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-7 15:58 , Processed in 0.279359 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表