周大 发表于 2025-4-18 15:15:32

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

卡内基梅隆大学(CMU)团队基于公务员考试中的逻辑推理题,开发了一个名为VisualPuzzles的新基准,用于评估AI的视觉推理能力。测试结果显示,包括o1、Gemini-2.5 Pro在内的顶尖大模型正确率仅为57.5%,远低于人类顶尖选手接近满分的表现。VisualPuzzles涵盖算法、类比、演绎、归纳和空间推理五大类题型,研究揭示了三个重要发现:知识与推理能力并不直接相关;更大的模型虽掌握更多知识,但未必具备更强推理能力;输出更长文本并不等于更好的推理表现。实验表明,当前大模型在纯逻辑推理场景中仍与人类存在显著差距,这为未来多模态大模型的发展指明了强化推理结构的方向。
来源:https://mp.weixin.qq.com/s/1lr-2lXCnCmB26YJzy3e6w
页: [1]
查看完整版本: 全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压