真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

周大发表于 2024-11-4 14:00:07

上海交通大学IWIN计算智能团队和上海人工智能实验室提出了一种新的基准GTA，用于评估大语言模型在复杂真实场景下的工具使用能力。GTA具有真实用户问题、真实部署的工具和多模态输入输出三大核心特性，包含229个人类撰写的任务，涵盖多种真实场景。评估结果显示，GPT-4在GTA上仅能完成46.59%的任务，大多数模型完成率低于25%，揭示了现有模型在参数传递准确率上的主要瓶颈。这一研究为未来通用工具智能体的发展提供了重要参考。
来源：https://mp.weixin.qq.com/s/KD4LzEomMUz_jKzVVuPLwg

页: [1]

靠浦ai课堂's Archiver

真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测