周大 发表于 2025-5-28 15:01:37

清华腾讯斯坦福联合研究:多模态大模型视觉推理能力远不及人类,o3仅25.8%

来自清华大学、腾讯混元等机构的研究团队发布了RBench-V,一款专为评估大模型视觉推理能力设计的基准测试。该测试涵盖几何、物理等领域,要求模型通过“画图”辅助推理。结果显示,即使是最强模型o3准确率仅为25.8%,远低于人类的82.3%。研究指出,当前模型在图像输出和空间直觉方面存在明显短板,需借助多模态思维链等方法实现突破。
来源:https://mp.weixin.qq.com/s/FdgQbOieFVGGDnlZ0AKrog
页: [1]
查看完整版本: 清华腾讯斯坦福联合研究:多模态大模型视觉推理能力远不及人类,o3仅25.8%