周大 发表于 2025-7-18 13:59:30

2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

在2025年国际数学奥林匹克竞赛中,包括Gemini 2.5 Pro、Grok-4和DeepSeek-R1在内的全球顶尖AI模型集体表现不佳,最高分仅为31%,未达铜牌门槛。测试采用当年IMO真题,确保题目未在训练数据中出现,并由奥数专家双盲评分,标准严格。AI普遍能捕捉解题方向,但关键步骤频繁出错,表现出逻辑跳跃问题。项目组采用“best of 32”策略提升解题质量,但成本高昂。结果显示,当前AI在数学推理能力上仍远逊于顶级人类选手。
来源:https://mp.weixin.qq.com/s/J-uT_uIPX9PAQEuXgCPZEQ
页: [1]
查看完整版本: 2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到