WebCanvas:新框架助力评估LLM智能体在真实网络环境中的性能

[复制链接]
周大 发表于 2024-7-17 15:16:45 | 显示全部楼层 |阅读模式
为解决大型语言模型智能体在线表现评估难题,跨越星空科技与卡内基梅隆大学合作推出WebCanvas框架,该框架引入“关键节点”概念,提供全面评估智能体在真实网络环境中的能力。在WebCanvas下,配备特定模块的LLM Agent任务成功率提升至23.1%,展示了在线评测技术的进步。此外,Mind2Web-Live数据集为模拟复杂网络环境提供了实验基础,助力未来技术发展。
来源:https://mp.weixin.qq.com/s/iZmF1mN28xP-Md57MHsRQw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 07:42 , Processed in 0.274889 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表