全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

[复制链接]
周大 发表于 2025-4-18 15:15:32 | 显示全部楼层 |阅读模式
卡内基梅隆大学(CMU)团队基于公务员考试中的逻辑推理题,开发了一个名为VisualPuzzles的新基准,用于评估AI的视觉推理能力。测试结果显示,包括o1、Gemini-2.5 Pro在内的顶尖大模型正确率仅为57.5%,远低于人类顶尖选手接近满分的表现。VisualPuzzles涵盖算法、类比、演绎、归纳和空间推理五大类题型,研究揭示了三个重要发现:知识与推理能力并不直接相关;更大的模型虽掌握更多知识,但未必具备更强推理能力;输出更长文本并不等于更好的推理表现。实验表明,当前大模型在纯逻辑推理场景中仍与人类存在显著差距,这为未来多模态大模型的发展指明了强化推理结构的方向。
来源:https://mp.weixin.qq.com/s/1lr-2lXCnCmB26YJzy3e6w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-9 20:59 , Processed in 0.288875 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表