陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

周大发表于 2024-11-11 14:15:45

Epoch AI联合六十余位全球顶尖数学家推出全新数学基准FrontierMath，旨在评估AI系统的高级推理能力。该测试集包含数百个原创且具有挑战性的数学问题，覆盖从奥赛难度到数学前沿的各个领域。尽管提供了充足的思考时间和实验条件，但前沿模型在测试中的成功率仍低于2%，远低于现有数学基准测试中的表现。这一结果揭示了当前AI模型在处理复杂逻辑推理任务时的局限性，同时也为未来的研究提供了新的方向。
来源：https://mp.weixin.qq.com/s/NFeScNy_df2rvdqtnlKKEw

页: [1]

靠浦ai课堂's Archiver

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年