全球顶尖AI来考公，不会推理全翻车！致命缺陷曝光，被倒数5%人类碾压

周大发表于 2025-4-18 15:15:32

卡内基梅隆大学（CMU）团队基于公务员考试中的逻辑推理题，开发了一个名为VisualPuzzles的新基准，用于评估AI的视觉推理能力。测试结果显示，包括o1、Gemini-2.5 Pro在内的顶尖大模型正确率仅为57.5%，远低于人类顶尖选手接近满分的表现。VisualPuzzles涵盖算法、类比、演绎、归纳和空间推理五大类题型，研究揭示了三个重要发现：知识与推理能力并不直接相关；更大的模型虽掌握更多知识，但未必具备更强推理能力；输出更长文本并不等于更好的推理表现。实验表明，当前大模型在纯逻辑推理场景中仍与人类存在显著差距，这为未来多模态大模型的发展指明了强化推理结构的方向。
来源：https://mp.weixin.qq.com/s/1lr-2lXCnCmB26YJzy3e6w

页: [1]

靠浦ai课堂's Archiver

全球顶尖AI来考公，不会推理全翻车！致命缺陷曝光，被倒数5%人类碾压