周大 发表于 2024-8-14 16:36:21

同时操控手机和电脑,100项任务,跨系统智能体评测基准有了

CAMEL AI社区推出跨平台多模态智能体基准测试CRAB,旨在解决现有智能体性能评估基准的局限性。CRAB可通过细粒度评估方法和高效任务构建工具,模拟真实世界的跨设备协作场景,提供全面的评估反馈。基准测试CRAB Benchmark-v0包含100个跨平台任务,初步实验结果显示GPT-4o驱动的单智能体结构表现最佳。
来源:https://mp.weixin.qq.com/s/Rf0q5VjitT5r1WoIVxCFIw
页: [1]
查看完整版本: 同时操控手机和电脑,100项任务,跨系统智能体评测基准有了