陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
Epoch AI联合六十余位全球顶尖数学家推出全新数学基准FrontierMath,旨在评估AI系统的高级推理能力。该测试集包含数百个原创且具有挑战性的数学问题,覆盖从奥赛难度到数学前沿的各个领域。尽管提供了充足的思考时间和实验条件,但前沿模型在测试中的成功率仍低于2%,远低于现有数学基准测试中的表现。这一结果揭示了当前AI模型在处理复杂逻辑推理任务时的局限性,同时也为未来的研究提供了新的方向。来源:https://mp.weixin.qq.com/s/NFeScNy_df2rvdqtnlKKEw
页:
[1]