打造通用工具智能体的基石：北大提出ToolVQA数据集，引领多模态多步推理VQA新范式

周大发表于 2025-8-22 14:58:45

北京大学研究团队提出新型多模态视觉问答数据集 ToolVQA，包含 23,655 条真实图像任务样本，平均需 2.78 步工具调用完成，涵盖 10 类多模态工具与 7 个应用领域。该数据集通过自动合成引擎 ToolEngine 构建，模拟人类多步推理过程，解决了现有数据集合成化、模板化的问题。实验表明，基于该数据集微调的 LLaVA-7B 模型在多项指标上超越 GPT-3.5-turbo，并在多个分布外任务中展现良好泛化能力。研究揭示当前模型在参数预测与答案整合方面仍存在瓶颈，该数据集为提升多步推理与工具使用能力提供了系统性评估基准。该成果已被 ICCV 2025 接收，相关代码与模型已开源。
来源：https://mp.weixin.qq.com/s/VeX1Ss3TixJ1X7UnDPszgQ

页: [1]

靠浦ai课堂's Archiver

打造通用工具智能体的基石：北大提出ToolVQA数据集，引领多模态多步推理VQA新范式