全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

[复制链接]
周大 发表于 2025-3-25 14:02:26 | 显示全部楼层 |阅读模式
ARC-AGI-2作为全新迭代的AI基准测试,显著提升了对AI的挑战难度。基础大模型如GPT-4.5、Claude 3.7等在测试中全线挂零,而CoT推理模型得分也仅为4%。相比之下,人类测试者表现优异,普通人在无训练情况下准确率可达60%,团队合作甚至能达到满分。新测试揭示了AI在符号解释、组合推理及上下文规则应用上的三大短板,并剔除了可通过暴力搜索破解的任务。同时,ARC Prize 2025竞赛宣布启动,奖金池高达100万美元,鼓励开源项目发展以攻克AGI难题。此外,ARC-AGI开始关注智能效率,提出智能不仅在于解决问题的能力,更在于资源利用的高效性。
来源:https://mp.weixin.qq.com/s/UZtE7CJi6wf9cfs_WzwH9Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 08:46 , Processed in 0.276881 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表