周大 发表于 2025-8-22 14:58:45

打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

北京大学研究团队提出新型多模态视觉问答数据集 ToolVQA,包含 23,655 条真实图像任务样本,平均需 2.78 步工具调用完成,涵盖 10 类多模态工具与 7 个应用领域。该数据集通过自动合成引擎 ToolEngine 构建,模拟人类多步推理过程,解决了现有数据集合成化、模板化的问题。实验表明,基于该数据集微调的 LLaVA-7B 模型在多项指标上超越 GPT-3.5-turbo,并在多个分布外任务中展现良好泛化能力。研究揭示当前模型在参数预测与答案整合方面仍存在瓶颈,该数据集为提升多步推理与工具使用能力提供了系统性评估基准。该成果已被 ICCV 2025 接收,相关代码与模型已开源。
来源:https://mp.weixin.qq.com/s/VeX1Ss3TixJ1X7UnDPszgQ
页: [1]
查看完整版本: 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式