全球顶级模型集体0分，AI终极大考人类5分钟秒杀！Keras之父戳破AGI神话

周大发表于 2025-3-25 14:02:26

ARC-AGI-2作为全新迭代的AI基准测试，显著提升了对AI的挑战难度。基础大模型如GPT-4.5、Claude 3.7等在测试中全线挂零，而CoT推理模型得分也仅为4%。相比之下，人类测试者表现优异，普通人在无训练情况下准确率可达60%，团队合作甚至能达到满分。新测试揭示了AI在符号解释、组合推理及上下文规则应用上的三大短板，并剔除了可通过暴力搜索破解的任务。同时，ARC Prize 2025竞赛宣布启动，奖金池高达100万美元，鼓励开源项目发展以攻克AGI难题。此外，ARC-AGI开始关注智能效率，提出智能不仅在于解决问题的能力，更在于资源利用的高效性。
来源：https://mp.weixin.qq.com/s/UZtE7CJi6wf9cfs_WzwH9Q

页: [1]

靠浦ai课堂's Archiver

全球顶级模型集体0分，AI终极大考人类5分钟秒杀！Keras之父戳破AGI神话