周大 发表于 2025-2-8 15:59:10

o3-mini AIME竞赛成绩引发数据集污染争议

在AIME 2025 I数学竞赛中,o3-mini以78%的成绩领先,但威斯康星大学教授Dimitris Papailiopoulos发现部分题目曾在网络上出现,质疑存在数据集污染。AIME I是2025年首场美国邀请数学考试,教授通过搜索发现多个题目与网上问题相似或相同,这引发对模型真正推理能力的质疑。MathArena平台旨在公平评估大模型在未见过的数学问题上的表现,确保数据纯净性,并通过多次评估计算平均得分及运行成本。
来源:https://mp.weixin.qq.com/s/h8ckSWdPpkY7i1cJ6yqYlw
页: [1]
查看完整版本: o3-mini AIME竞赛成绩引发数据集污染争议