o3挑战ARC-AGI,遇见大网格就懵圈?英国工程师:ARC-AGI不适合大模型

[复制链接]
周大 发表于 2024-12-26 14:50:48 | 显示全部楼层 |阅读模式
ML工程师米哥研究发现,在ARC-AGI推理任务中,大模型表现不佳并非因为题目难度,而是受网格规模影响。当网格数量超过1024时,包括o3在内的多个大模型性能显著下降。研究表明,这主要是因为大模型以一维token方式处理信息,难以有效进行跨行跨列推理。相比之下,人类在处理大规模问题时表现更好。该研究暗示ARC挑战可能无法准确评估大模型的实际推理能力,而即将推出的ARC-AGI-2将对现有模型构成更大挑战。
来源:https://mp.weixin.qq.com/s/0oixyERoMbdLNGEEYgcydw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 16:23 , Processed in 0.281959 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表