2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

[复制链接]
周大 发表于 2025-7-18 13:59:30 | 显示全部楼层 |阅读模式
在2025年国际数学奥林匹克竞赛中,包括Gemini 2.5 Pro、Grok-4和DeepSeek-R1在内的全球顶尖AI模型集体表现不佳,最高分仅为31%,未达铜牌门槛。测试采用当年IMO真题,确保题目未在训练数据中出现,并由奥数专家双盲评分,标准严格。AI普遍能捕捉解题方向,但关键步骤频繁出错,表现出逻辑跳跃问题。项目组采用“best of 32”策略提升解题质量,但成本高昂。结果显示,当前AI在数学推理能力上仍远逊于顶级人类选手。
来源:https://mp.weixin.qq.com/s/J-uT_uIPX9PAQEuXgCPZEQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 13:07 , Processed in 0.278209 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表