AI 智能体在短期任务中胜过人类专家

[复制链接]
周大 发表于 2024-11-24 15:02:54 | 显示全部楼层 |阅读模式
最新研究表明,AI 智能体 Claude 3.5 Sonnet 和 o1-preview 在 2 小时内完成了 7 项具有挑战性的研发任务,击败了 50 多位人类专家。然而,当任务时间延长至 8 小时时,人类专家的优势逐渐显现。研究人员设计了 RE-Bench 评估环境,发现 AI 智能体在优化核函数等特定任务中表现出色,但整体上仍不如顶级人类专家。AI 智能体尝试频率高,但解决方案缺乏多样性和准确性,且存在指令理解错误。研究指出,AI 智能体在短期高保真反馈和低工程复杂度的环境中可能超越人类。
来源:https://mp.weixin.qq.com/s/ZtTMZ-mUlA8U2o6_dKQszg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-25 13:50 , Processed in 0.298853 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表