AI打工人报告：完成专家级任务，速度快100倍，成本仅1%

周大发表于 2025-9-27 14:24:43

OpenAI 推出新评估基准 GDPval，涵盖九大行业1320项真实任务，用于衡量AI在经济场景中的实际表现。测试显示，Claude Opus 4.1 综合表现最佳，GPT-5 在准确性上领先。前沿模型效率较人类专家提升约100倍，成本降至1%，性能较 GPT-4o 提升超一倍。但评估暂不支持动态交互任务，且成本数据未含人工干预环节，OpenAI 表示将持续优化并开放部分数据集。
来源：https://tech.ifeng.com/c/8mz4HNRpzFa

		自动登录	找回密码
密码			立即注册

课程导航

AI打工人报告：完成专家级任务，速度快100倍，成本仅1%