周大 发表于 2024-7-17 15:16:45

WebCanvas:新框架助力评估LLM智能体在真实网络环境中的性能

为解决大型语言模型智能体在线表现评估难题,跨越星空科技与卡内基梅隆大学合作推出WebCanvas框架,该框架引入“关键节点”概念,提供全面评估智能体在真实网络环境中的能力。在WebCanvas下,配备特定模块的LLM Agent任务成功率提升至23.1%,展示了在线评测技术的进步。此外,Mind2Web-Live数据集为模拟复杂网络环境提供了实验基础,助力未来技术发展。
来源:https://mp.weixin.qq.com/s/iZmF1mN28xP-Md57MHsRQw
页: [1]
查看完整版本: WebCanvas:新框架助力评估LLM智能体在真实网络环境中的性能