o3挑战ARC-AGI，遇见大网格就懵圈？英国工程师：ARC-AGI不适合大模型

周大发表于 2024-12-26 14:50:48

ML工程师米哥研究发现，在ARC-AGI推理任务中，大模型表现不佳并非因为题目难度，而是受网格规模影响。当网格数量超过1024时，包括o3在内的多个大模型性能显著下降。研究表明，这主要是因为大模型以一维token方式处理信息，难以有效进行跨行跨列推理。相比之下，人类在处理大规模问题时表现更好。该研究暗示ARC挑战可能无法准确评估大模型的实际推理能力，而即将推出的ARC-AGI-2将对现有模型构成更大挑战。
来源：https://mp.weixin.qq.com/s/0oixyERoMbdLNGEEYgcydw

页: [1]

靠浦ai课堂's Archiver

o3挑战ARC-AGI，遇见大网格就懵圈？英国工程师：ARC-AGI不适合大模型