周大 发表于 2025-1-26 14:10:54

顶级AI智能体不会社交,创业远不如人类!CMU等:最多完成24%任务

The Agent Company的研究显示,即使是最先进的智能体也无法自主完成大多数运营软件公司的任务。研究中,表现最佳的Claude Sonnet 3.5智能体也只能应对24%的任务。智能体在常识推理、社交互动、网页操作等方面存在明显不足。这项研究创建了175个与真实公司运营模式一致的任务,并提供了评估智能体在真实环境中表现的框架。虽然目前智能体的表现不尽如人意,但未来有望通过多维度考核提升其能力,实现部分岗位任务的自动化处理。
来源:https://mp.weixin.qq.com/s/VhKa6rZURgeK3OEebRkuxg
页: [1]
查看完整版本: 顶级AI智能体不会社交,创业远不如人类!CMU等:最多完成24%任务