- 简介网络智能代理(如 Deep Research)已展现出超越人类的认知能力,能够解决极具挑战性的信息检索问题。然而,目前大多数研究仍主要以文本为中心,忽略了现实世界中的视觉信息。这使得多模态的 Deep Research 变得极具挑战性,因为相比纯文本代理,这类代理需要在感知、逻辑、知识运用等方面具备更强的推理能力,并需使用更为复杂的工具。为了解决这一局限,我们提出了 WebWatcher——一个具备增强视觉-语言推理能力的多模态 Deep Research 代理。该代理利用高质量的合成多模态轨迹进行高效的冷启动训练,借助多种工具实现深度推理,并通过强化学习进一步提升其泛化能力。 为了更全面地评估多模态代理的能力,我们提出了 BrowseComp-VL 基准测试,该测试采用 BrowseComp 风格的任务设计,要求同时处理视觉与文本信息的复杂信息检索任务。实验结果表明,WebWatcher 在四个具有挑战性的视觉问答(VQA)基准测试中,显著优于专有基线系统、RAG 工作流以及开源代理,为解决复杂的多模态信息检索任务铺平了道路。
- 解决问题当前大多数信息检索类的深度研究代理(Deep Research Agents)主要集中在文本模态上,忽视了现实世界中大量存在的视觉信息。这种单模态处理方式限制了代理在真实复杂场景下的信息获取能力。论文试图解决如何构建具备多模态(特别是视觉-语言)推理能力的深度研究代理这一问题,这是一个新兴且具有挑战性的研究方向。
- 关键思路论文提出WebWatcher,这是一种具备增强视觉-语言推理能力的多模态深度研究代理。其核心创新在于:1)利用高质量的合成多模态轨迹进行高效的冷启动训练;2)结合多种工具实现深度推理;3)通过强化学习提升泛化能力。相比以往的文本中心方法,WebWatcher首次系统性地将视觉信息引入深度研究代理框架,显著提升了复杂信息检索任务的表现。
- 其它亮点1. 提出并构建了首个面向多模态深度研究的代理框架WebWatcher 2. 引入合成多模态轨迹用于训练,解决了真实交互数据稀缺的问题 3. 设计了基于强化学习的泛化能力提升机制 4. 提出了新的多模态评估基准BrowseComp-VL,推动领域发展 5. 在四个具有挑战性的VQA基准测试中显著优于现有RAG流程、专有基线和开源代理 6. 实验设计全面,涵盖多个真实世界场景,为后续研究提供了基础
- 1. Deep Research Agents: Reinforcement Learning for Complex Information Seeking (2023) 2. RAG-Based Multimodal Question Answering: Limitations and Opportunities (2024) 3. Visual Language Models for Web Navigation: A Comprehensive Study (2023) 4. Synthetic Data Generation for Embodied Agents: Recent Advances (2024) 5. Reinforcement Learning with Multimodal Rewards: A New Paradigm for Agent Training (2023)
沙发等你来抢
去评论
评论
沙发等你来抢