同时操控手机和电脑，100项任务，跨系统智能体评测基准有了

周大发表于 2024-8-14 16:36:21

CAMEL AI社区推出跨平台多模态智能体基准测试CRAB，旨在解决现有智能体性能评估基准的局限性。CRAB可通过细粒度评估方法和高效任务构建工具，模拟真实世界的跨设备协作场景，提供全面的评估反馈。基准测试CRAB Benchmark-v0包含100个跨平台任务，初步实验结果显示GPT-4o驱动的单智能体结构表现最佳。
来源：https://mp.weixin.qq.com/s/Rf0q5VjitT5r1WoIVxCFIw

页: [1]

靠浦ai课堂's Archiver

同时操控手机和电脑，100项任务，跨系统智能体评测基准有了