o3挑战ARC-AGI,遇见大网格就懵圈?英国工程师:ARC-AGI不适合大模型
ML工程师米哥研究发现,在ARC-AGI推理任务中,大模型表现不佳并非因为题目难度,而是受网格规模影响。当网格数量超过1024时,包括o3在内的多个大模型性能显著下降。研究表明,这主要是因为大模型以一维token方式处理信息,难以有效进行跨行跨列推理。相比之下,人类在处理大规模问题时表现更好。该研究暗示ARC挑战可能无法准确评估大模型的实际推理能力,而即将推出的ARC-AGI-2将对现有模型构成更大挑战。来源:https://mp.weixin.qq.com/s/0oixyERoMbdLNGEEYgcydw
页:
[1]