AI 智能体在短期任务中胜过人类专家

周大发表于 2024-11-24 15:02:54

最新研究表明，AI 智能体 Claude 3.5 Sonnet 和 o1-preview 在 2 小时内完成了 7 项具有挑战性的研发任务，击败了 50 多位人类专家。然而，当任务时间延长至 8 小时时，人类专家的优势逐渐显现。研究人员设计了 RE-Bench 评估环境，发现 AI 智能体在优化核函数等特定任务中表现出色，但整体上仍不如顶级人类专家。AI 智能体尝试频率高，但解决方案缺乏多样性和准确性，且存在指令理解错误。研究指出，AI 智能体在短期高保真反馈和低工程复杂度的环境中可能超越人类。
来源：https://mp.weixin.qq.com/s/ZtTMZ-mUlA8U2o6_dKQszg

页: [1]

靠浦ai课堂's Archiver

AI 智能体在短期任务中胜过人类专家