WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent

2025年08月07日
  • 简介
    网络智能体(如 Deep Research)已展现出超越人类的认知能力,能够解决极具挑战性的信息检索问题。然而,目前大多数研究仍以文本为中心,忽略了现实世界中的视觉信息。这使得多模态的 Deep Research 变得极具挑战性,因为相比纯文本智能体,这类智能体需要在感知、逻辑、知识等方面具备更强的推理能力,并能使用更复杂的工具。为了解决这一局限,我们提出了 WebWatcher,这是一个具备增强视觉-语言推理能力的多模态 Deep Research 智能体。该智能体利用高质量的合成多模态轨迹进行高效的冷启动训练,借助多种工具实现深度推理,并通过强化学习进一步提升其泛化能力。 为了更全面地评估多模态智能体的能力,我们提出了 BrowseComp-VL 基准测试,它延续了 BrowseComp 系列的复杂信息检索风格,要求同时处理视觉与文本信息。实验结果表明,WebWatcher 在四个具有挑战性的视觉问答(VQA)基准测试中显著优于专有基线系统、RAG 工作流以及开源智能体,为解决复杂的多模态信息检索任务铺平了道路。
  • 图表
  • 解决问题
    论文旨在解决当前Web代理在信息检索任务中主要依赖文本信息、忽视视觉信息的问题,特别是在复杂多模态场景下推理能力不足的挑战。这是一个较新的问题,因为随着现实世界信息的多模态化,仅依赖文本已无法满足深度信息检索的需求。
  • 关键思路
    论文提出WebWatcher,一个具备增强视觉-语言推理能力的多模态Deep Research代理。其核心思想是通过高质量的合成多模态轨迹进行高效冷启动训练,结合多种工具进行深度推理,并利用强化学习提升泛化能力。与现有文本代理相比,该方法在多模态感知、逻辑推理和工具使用方面具有更强的能力。
  • 其它亮点
    1. 提出BrowseComp-VL基准,用于评估多模态代理在复杂信息检索任务中的表现 2. 设计了基于视觉-语言联合推理的WebWatcher代理架构 3. 在四个具有挑战性的VQA基准测试中显著优于现有RAG流程、专有基线和开源代理 4. 通过合成多模态轨迹实现冷启动训练,为多模态代理研究提供新思路 5. 论文强调工具使用与强化学习在多模态代理中的有效结合
  • 相关研究
    1. Multimodal Transformers: A Survey (2022) 2. BLIP-2: Bootstrapping Language-Image Pre-training for Few-shot Learning (2023) 3. Flamingo: a Visual Language Model for Few-shot Learning (2022) 4. Deep Research Agents for Web Navigation and Information Extraction (2023) 5. Visual Question Answering with Hierarchical Attention Networks (2021)
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论