你敢信?GPT-5的电脑操作水平只比人类低2%了

[复制链接]
周大 发表于 6 天前 | 显示全部楼层 |阅读模式
Agent S3在计算机使用智能体基准OSWorld上实现69.9%的成功率,接近人类水平72%。其通过简化架构和引入原生代码智能体,将单次运行性能提升至62.6%,并首次采用Behavior Best-of-N框架,利用多运行选优机制显著提高稳定性与效率。实验显示,并行运行10次时性能最佳,GPT-5和GPT-5 Mini分别达到69.9%和60.2%的成功率。混合模型集成进一步提升任务覆盖率至78.0%,验证了模型多样性的价值。该框架还引入行为叙事与评判机制,增强可解释性与评估准确性,评判器与人类选择一致性达92.8%。目前项目已完全开源。
来源:https://mp.weixin.qq.com/s/vbTYe2nLljf5hVkhHx7Grw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-10 00:03 , Processed in 0.295668 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表