真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测

[复制链接]
周大 发表于 2024-11-4 14:00:07 | 显示全部楼层 |阅读模式
上海交通大学IWIN计算智能团队和上海人工智能实验室提出了一种新的基准GTA,用于评估大语言模型在复杂真实场景下的工具使用能力。GTA具有真实用户问题、真实部署的工具和多模态输入输出三大核心特性,包含229个人类撰写的任务,涵盖多种真实场景。评估结果显示,GPT-4在GTA上仅能完成46.59%的任务,大多数模型完成率低于25%,揭示了现有模型在参数传递准确率上的主要瓶颈。这一研究为未来通用工具智能体的发展提供了重要参考。
来源:https://mp.weixin.qq.com/s/KD4LzEomMUz_jKzVVuPLwg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 16:23 , Processed in 0.307565 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表