周大 发表于 2025-8-15 15:37:21

首个开源多模态Deep Research智能体WebWatcher问世,多项评测超主流模型

首个开源多模态深度研究代理WebWatcher,集成网页浏览、图像搜索、代码解释器等多种工具,具备自主规划与工具调用能力,可应对跨模态、多步骤复杂任务。其技术方案涵盖数据生成、推理轨迹构建与强化学习优化,并提出新评测基准BrowseComp-VL。实验显示,WebWatcher在HLE-VL、MMSearch、LiveVQA和BrowseComp-VL等四大核心评测中全面领先GPT-4o、Gemini、Qwen等主流模型,Pass@1得分最高达58.7%,展现出在复杂推理、信息检索与知识整合方面的显著优势,标志着新一代多模态AI代理的技术突破。
来源:https://mp.weixin.qq.com/s/3gzb5QcJ8AO-1EDeECUFlQ
页: [1]
查看完整版本: 首个开源多模态Deep Research智能体WebWatcher问世,多项评测超主流模型