2025 IMO真题撕碎AI数学神话，全球顶尖模型齐翻车！冠军铜牌都拿不到

周大发表于 2025-7-18 13:59:30

在2025年国际数学奥林匹克竞赛中，包括Gemini 2.5 Pro、Grok-4和DeepSeek-R1在内的全球顶尖AI模型集体表现不佳，最高分仅为31%，未达铜牌门槛。测试采用当年IMO真题，确保题目未在训练数据中出现，并由奥数专家双盲评分，标准严格。AI普遍能捕捉解题方向，但关键步骤频繁出错，表现出逻辑跳跃问题。项目组采用“best of 32”策略提升解题质量，但成本高昂。结果显示，当前AI在数学推理能力上仍远逊于顶级人类选手。
来源：https://mp.weixin.qq.com/s/J-uT_uIPX9PAQEuXgCPZEQ

页: [1]

靠浦ai课堂's Archiver

2025 IMO真题撕碎AI数学神话，全球顶尖模型齐翻车！冠军铜牌都拿不到