- 简介网络智能体(如 Deep Research)已展现出超越人类的认知能力,能够解决极具挑战性的信息检索问题。然而,目前大多数研究仍以文本为中心,忽略了现实世界中的视觉信息。这使得多模态的 Deep Research 变得极具挑战性,因为相比纯文本智能体,这类智能体需要在感知、逻辑、知识等方面具备更强的推理能力,并能使用更复杂的工具。为了解决这一局限,我们提出了 WebWatcher,这是一个具备增强视觉-语言推理能力的多模态 Deep Research 智能体。该智能体利用高质量的合成多模态轨迹进行高效的冷启动训练,借助多种工具实现深度推理,并通过强化学习进一步提升其泛化能力。 为了更全面地评估多模态智能体的能力,我们提出了 BrowseComp-VL 基准测试,它延续了 BrowseComp 系列的复杂信息检索风格,要求同时处理视觉与文本信息。实验结果表明,WebWatcher 在四个具有挑战性的视觉问答(VQA)基准测试中显著优于专有基线系统、RAG 工作流以及开源智能体,为解决复杂的多模态信息检索任务铺平了道路。
- 图表
- 解决问题论文旨在解决当前Web代理在信息检索任务中主要依赖文本信息、忽视视觉信息的问题,特别是在复杂多模态场景下推理能力不足的挑战。这是一个较新的问题,因为随着现实世界信息的多模态化,仅依赖文本已无法满足深度信息检索的需求。
- 关键思路论文提出WebWatcher,一个具备增强视觉-语言推理能力的多模态Deep Research代理。其核心思想是通过高质量的合成多模态轨迹进行高效冷启动训练,结合多种工具进行深度推理,并利用强化学习提升泛化能力。与现有文本代理相比,该方法在多模态感知、逻辑推理和工具使用方面具有更强的能力。
- 其它亮点1. 提出BrowseComp-VL基准,用于评估多模态代理在复杂信息检索任务中的表现 2. 设计了基于视觉-语言联合推理的WebWatcher代理架构 3. 在四个具有挑战性的VQA基准测试中显著优于现有RAG流程、专有基线和开源代理 4. 通过合成多模态轨迹实现冷启动训练,为多模态代理研究提供新思路 5. 论文强调工具使用与强化学习在多模态代理中的有效结合
- 1. Multimodal Transformers: A Survey (2022) 2. BLIP-2: Bootstrapping Language-Image Pre-training for Few-shot Learning (2023) 3. Flamingo: a Visual Language Model for Few-shot Learning (2022) 4. Deep Research Agents for Web Navigation and Information Extraction (2023) 5. Visual Question Answering with Hierarchical Attention Networks (2021)
沙发等你来抢
去评论
评论
沙发等你来抢