
WebWatcher 是阿里通义实验室提出的多模态深度研究智能体(Deep Research Agent),其核心目标是增强视觉-语言推理能力,以克服当前以文本为主要信息载体的研究智能体在处理多模态信息方面的局限性。该系统通过合成高质量的多模态训练轨迹,实现了高效的冷启动训练过程,并整合了多种外部工具,包括网页图像搜索、网页文本检索、网页浏览、代码解释器以及内置光学字符识别(OCR)模块,以支持深层次的多模态推理。此外,WebWatcher 还引入强化学习方法(采用 GRPO 算法)以进一步提升模型泛化性能。
为全面评估多模态智能体的能力,本研究提出了 BrowseComp-VL 基准数据集。该数据集涵盖五个主要领域、十七个子领域,包含两种难度级别,共计 399 个视觉问答对(VQA pairs)。在多项具有挑战性的视觉问答基准测试(包括 HLE、LiveVQA、BrowseComp-VL 及 MMSearch)上的实验表明,WebWatcher 显著优于现有的专用基线模型、基于检索增强生成(RAG)的工作流程以及其他开源智能体。具体而言,WebWatcher-32B 在 LiveVQA 上达到了 58.7% 的 Pass@1 成绩,在 MMSearch 上为 55.3%,在自行构建的 BrowseComp-VL 基准上也实现了 27.0% 的通过率。这些结果验证了该智能体在处理复杂多模态信息检索任务方面的先进性与潜力。
耿欣宇,香港科技大学CSE系一年级博士生,导师为冯一人 Yi R. (May) Fung。曾在阿里通义实验室Deep Research组实习。主要研究方向为Multimodal LLM Agent, LLM Reasoning等。

扫码报名
线上交流群

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢