全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话
ARC-AGI-2作为全新迭代的AI基准测试,显著提升了对AI的挑战难度。基础大模型如GPT-4.5、Claude 3.7等在测试中全线挂零,而CoT推理模型得分也仅为4%。相比之下,人类测试者表现优异,普通人在无训练情况下准确率可达60%,团队合作甚至能达到满分。新测试揭示了AI在符号解释、组合推理及上下文规则应用上的三大短板,并剔除了可通过暴力搜索破解的任务。同时,ARC Prize 2025竞赛宣布启动,奖金池高达100万美元,鼓励开源项目发展以攻克AGI难题。此外,ARC-AGI开始关注智能效率,提出智能不仅在于解决问题的能力,更在于资源利用的高效性。来源:https://mp.weixin.qq.com/s/UZtE7CJi6wf9cfs_WzwH9Q
页:
[1]