清华腾讯斯坦福联合研究：多模态大模型视觉推理能力远不及人类，o3仅25.8%

周大发表于 2025-5-28 15:01:37

来自清华大学、腾讯混元等机构的研究团队发布了RBench-V，一款专为评估大模型视觉推理能力设计的基准测试。该测试涵盖几何、物理等领域，要求模型通过“画图”辅助推理。结果显示，即使是最强模型o3准确率仅为25.8%，远低于人类的82.3%。研究指出，当前模型在图像输出和空间直觉方面存在明显短板，需借助多模态思维链等方法实现突破。
来源：https://mp.weixin.qq.com/s/FdgQbOieFVGGDnlZ0AKrog

页: [1]

靠浦ai课堂's Archiver

清华腾讯斯坦福联合研究：多模态大模型视觉推理能力远不及人类，o3仅25.8%