周大 发表于 2025-5-29 13:56:25

SeePhys基准揭示AI物理图像理解短板,顶尖模型准确率不足55%

中山大学等机构联合推出开源多模态物理推理基准SeePhys,覆盖从初中到博士资格考试的全谱系物理问题,包含2000道题目和2245张图表。实验评估显示,即使是最先进的模型(如Gemini-2.5-Pro),其准确率也不足55%,暴露出多模态推理的巨大挑战。研究发现,模型在视觉-文本对齐能力、特定图表识别及逻辑推理方面存在明显缺陷。团队归纳出9种错误推理模式,并指出知识注入的边际效应。SeePhys正在ICML 2025 Workshop中开放评估,旨在推动AI在物理图像理解领域的进步。
来源:https://mp.weixin.qq.com/s/LXf7pSyRIvj1LlvwRBJuUw
页: [1]
查看完整版本: SeePhys基准揭示AI物理图像理解短板,顶尖模型准确率不足55%