网络智能代理(如 Deep Research)已展现出超越人类的认知能力,能够解决极具挑战性的信息检索问题。然而,目前大多数研究仍主要以文本为中心,忽略了现实世界中的视觉信息。这使得多模态的 Deep Research 变得极具挑战性,因为相比纯文本代理,这类代理需要在感知、逻辑、知识运用等方面具备更强的推理能力,并需使用更为复杂的工具。为了解决这一局限,我们提出了 WebWatcher——一个具备增强视觉-语言推理能力的多模态 Deep Research 代理。该代理利用高质量的合成多模态轨迹进行高效的冷启动训练,借助多种工具实现深度推理,并通过强化学习进一步提升其泛化能力。
为了更全面地评估多模态代理的能力,我们提出了 BrowseComp-VL 基准测试,该测试采用 BrowseComp 风格的任务设计,要求同时处理视觉与文本信息的复杂信息检索任务。实验结果表明,WebWatcher 在四个具有挑战性的视觉问答(VQA)基准测试中,显著优于专有基线系统、RAG 工作流以及开源代理,为解决复杂的多模态信息检索任务铺平了道路。