FormulaOne基准测试难倒所有AI:GPT-5等顶尖模型在博士级推理题上全军覆没

[复制链接]
周大 发表于 7 天前 | 显示全部楼层 |阅读模式
AAI 提出名为 FormulaOne 的新测试基准,包含 220 个图结构动态规划问题,按难度分为三类,最高难度接近科研级挑战。测试结果显示,尽管 GPT-5、Gemini 等前沿模型在较易题目上表现尚可(50%-70%),但在最深层难度中全部模型均得零分,暴露出当前 AI 在复杂推理上的局限性。AAI 作为一家专注于“人工专家智能”(AEI)的初创公司,致力于结合领域知识与科学推理能力,推动 AI 解决复杂科研与工程问题。公司已获得数千万美元投资及 AWS 支持。
来源:https://mp.weixin.qq.com/s/cyOJ_Id606REj97nCXYqhg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 06:57 , Processed in 0.283122 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表