FormulaOne基准测试难倒所有AI：GPT-5等顶尖模型在博士级推理题上全军覆没

周大发表于 2025-8-15 15:07:31

AAI 提出名为 FormulaOne 的新测试基准，包含 220 个图结构动态规划问题，按难度分为三类，最高难度接近科研级挑战。测试结果显示，尽管 GPT-5、Gemini 等前沿模型在较易题目上表现尚可（50%-70%），但在最深层难度中全部模型均得零分，暴露出当前 AI 在复杂推理上的局限性。AAI 作为一家专注于“人工专家智能”（AEI）的初创公司，致力于结合领域知识与科学推理能力，推动 AI 解决复杂科研与工程问题。公司已获得数千万美元投资及 AWS 支持。
来源：https://mp.weixin.qq.com/s/cyOJ_Id606REj97nCXYqhg

		自动登录	找回密码
密码			立即注册

课程导航

FormulaOne基准测试难倒所有AI：GPT-5等顶尖模型在博士级推理题上全军覆没