打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

[复制链接]
周大 发表于 2025-8-22 14:58:45 | 显示全部楼层 |阅读模式
北京大学研究团队提出新型多模态视觉问答数据集 ToolVQA,包含 23,655 条真实图像任务样本,平均需 2.78 步工具调用完成,涵盖 10 类多模态工具与 7 个应用领域。该数据集通过自动合成引擎 ToolEngine 构建,模拟人类多步推理过程,解决了现有数据集合成化、模板化的问题。实验表明,基于该数据集微调的 LLaVA-7B 模型在多项指标上超越 GPT-3.5-turbo,并在多个分布外任务中展现良好泛化能力。研究揭示当前模型在参数预测与答案整合方面仍存在瓶颈,该数据集为提升多步推理与工具使用能力提供了系统性评估基准。该成果已被 ICCV 2025 接收,相关代码与模型已开源。
来源:https://mp.weixin.qq.com/s/VeX1Ss3TixJ1X7UnDPszgQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 21:01 , Processed in 0.303390 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表