SeePhys基准揭示AI物理图像理解短板，顶尖模型准确率不足55%

周大发表于 2025-5-29 13:56:25

中山大学等机构联合推出开源多模态物理推理基准SeePhys，覆盖从初中到博士资格考试的全谱系物理问题，包含2000道题目和2245张图表。实验评估显示，即使是最先进的模型（如Gemini-2.5-Pro），其准确率也不足55%，暴露出多模态推理的巨大挑战。研究发现，模型在视觉-文本对齐能力、特定图表识别及逻辑推理方面存在明显缺陷。团队归纳出9种错误推理模式，并指出知识注入的边际效应。SeePhys正在ICML 2025 Workshop中开放评估，旨在推动AI在物理图像理解领域的进步。
来源：https://mp.weixin.qq.com/s/LXf7pSyRIvj1LlvwRBJuUw

页: [1]

靠浦ai课堂's Archiver

SeePhys基准揭示AI物理图像理解短板，顶尖模型准确率不足55%