真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测
上海交通大学IWIN计算智能团队和上海人工智能实验室提出了一种新的基准GTA,用于评估大语言模型在复杂真实场景下的工具使用能力。GTA具有真实用户问题、真实部署的工具和多模态输入输出三大核心特性,包含229个人类撰写的任务,涵盖多种真实场景。评估结果显示,GPT-4在GTA上仅能完成46.59%的任务,大多数模型完成率低于25%,揭示了现有模型在参数传递准确率上的主要瓶颈。这一研究为未来通用工具智能体的发展提供了重要参考。来源:https://mp.weixin.qq.com/s/KD4LzEomMUz_jKzVVuPLwg
页:
[1]