同时操控手机和电脑,100项任务,跨系统智能体评测基准有了

[复制链接]
周大 发表于 2024-8-14 16:36:21 | 显示全部楼层 |阅读模式
CAMEL AI社区推出跨平台多模态智能体基准测试CRAB,旨在解决现有智能体性能评估基准的局限性。CRAB可通过细粒度评估方法和高效任务构建工具,模拟真实世界的跨设备协作场景,提供全面的评估反馈。基准测试CRAB Benchmark-v0包含100个跨平台任务,初步实验结果显示GPT-4o驱动的单智能体结构表现最佳。
来源:https://mp.weixin.qq.com/s/Rf0q5VjitT5r1WoIVxCFIw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 16:14 , Processed in 0.287102 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表