陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

[复制链接]
周大 发表于 2024-11-11 14:15:45 | 显示全部楼层 |阅读模式
Epoch AI联合六十余位全球顶尖数学家推出全新数学基准FrontierMath,旨在评估AI系统的高级推理能力。该测试集包含数百个原创且具有挑战性的数学问题,覆盖从奥赛难度到数学前沿的各个领域。尽管提供了充足的思考时间和实验条件,但前沿模型在测试中的成功率仍低于2%,远低于现有数学基准测试中的表现。这一结果揭示了当前AI模型在处理复杂逻辑推理任务时的局限性,同时也为未来的研究提供了新的方向。
来源:https://mp.weixin.qq.com/s/NFeScNy_df2rvdqtnlKKEw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-27 17:39 , Processed in 0.276690 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表