AI 智能体在短期任务中胜过人类专家
最新研究表明,AI 智能体 Claude 3.5 Sonnet 和 o1-preview 在 2 小时内完成了 7 项具有挑战性的研发任务,击败了 50 多位人类专家。然而,当任务时间延长至 8 小时时,人类专家的优势逐渐显现。研究人员设计了 RE-Bench 评估环境,发现 AI 智能体在优化核函数等特定任务中表现出色,但整体上仍不如顶级人类专家。AI 智能体尝试频率高,但解决方案缺乏多样性和准确性,且存在指令理解错误。研究指出,AI 智能体在短期高保真反馈和低工程复杂度的环境中可能超越人类。来源:https://mp.weixin.qq.com/s/ZtTMZ-mUlA8U2o6_dKQszg
页:
[1]