AI打工人报告:完成专家级任务,速度快100倍,成本仅1%

[复制链接]
周大 发表于 2025-9-27 14:24:43 | 显示全部楼层 |阅读模式
OpenAI 推出新评估基准 GDPval,涵盖九大行业1320项真实任务,用于衡量AI在经济场景中的实际表现。测试显示,Claude Opus 4.1 综合表现最佳,GPT-5 在准确性上领先。前沿模型效率较人类专家提升约100倍,成本降至1%,性能较 GPT-4o 提升超一倍。但评估暂不支持动态交互任务,且成本数据未含人工干预环节,OpenAI 表示将持续优化并开放部分数据集。
来源:https://tech.ifeng.com/c/8mz4HNRpzFa

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-9 23:54 , Processed in 0.289203 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表