o3-mini AIME竞赛成绩引发数据集污染争议

[复制链接]
周大 发表于 2025-2-8 15:59:10 | 显示全部楼层 |阅读模式
在AIME 2025 I数学竞赛中,o3-mini以78%的成绩领先,但威斯康星大学教授Dimitris Papailiopoulos发现部分题目曾在网络上出现,质疑存在数据集污染。AIME I是2025年首场美国邀请数学考试,教授通过搜索发现多个题目与网上问题相似或相同,这引发对模型真正推理能力的质疑。MathArena平台旨在公平评估大模型在未见过的数学问题上的表现,确保数据纯净性,并通过多次评估计算平均得分及运行成本。
来源:https://mp.weixin.qq.com/s/h8ckSWdPpkY7i1cJ6yqYlw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 02:39 , Processed in 0.278883 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表