AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

向作者提问

NEW

简介

现实世界中的多模态智能体需依托视觉证据，完成涉及多个步骤的复杂工作流。例如，智能体可通过将一张接线照片与电路原理图进行比对，并结合在线技术文档验证修复效果，从而排查设备故障；又如，智能体可解读公共交通线路图，并在满足路径规划约束的前提下查询班次时刻表，进而规划一次出行。然而，当前主流的多模态评测基准主要聚焦于单轮视觉推理任务或特定工具技能的评估，未能充分反映实际智能体所必需的真实场景复杂性、视觉细节敏感性以及长程（long-horizon）工具调用能力。为此，我们提出 AgentVista——一个面向通用型多模态智能体的新型评测基准。该基准覆盖七大类共25个细分领域，将高度逼真、细节丰富的视觉场景与自然融合的混合式工具调用方式相结合。其中的任务要求跨模态、长程连续地调用多种工具，包括网络搜索、图像搜索、网页导航，以及面向图像处理和通用编程的代码执行操作。我们对当前最先进的多个模型进行了全面评测，结果暴露出它们在执行长程多模态工具协同任务方面存在显著能力短板：即便表现最优的模型——接入工具后的 Gemini-3-Pro，其整体准确率也仅为27.3%；而针对难度最高的样本，所需工具调用轮次甚至超过25轮。我们期望 AgentVista 能够有力推动更强大、更可靠的多模态智能体的发展，使其真正胜任现实世界中高度复杂、极具挑战性的实际问题求解任务。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有 multimodal benchmark 无法真实评估通用多模态智能体在现实世界中执行长周期、多步骤、跨模态工具调用任务的能力，尤其缺乏对视觉细节理解、多源异构工具协同（如网页导航+图像搜索+代码执行）以及真实工作流 grounded in visual evidence 的系统性评测。这是一个新问题：首次聚焦‘长周期多模态工具链’的端到端能力评估，而非单轮视觉问答或孤立工具技能测试。
关键思路

提出 AgentVista——首个面向通用多模态代理（generalist multimodal agents）的长周期、视觉扎根、混合工具基准，覆盖25个子领域/7大类真实场景；核心创新在于将高保真视觉输入（如带噪接线图、复杂交通地图）与自然发生的多步工具交互（Web search → image search → DOM navigation → Python-based image analysis → API calling）强耦合，并要求模型基于视觉证据闭环验证决策，而非仅输出答案。
其它亮点

• 构建25子领域×7类别（含硬件排障、旅行规划、科学可视化解读等）的2,140+高质量人工标注任务，全部含原始图像、工具调用轨迹、黄金验证路径；• 首次引入‘turn-aware accuracy’和‘tool-chain fidelity’双维度评估，硬实例平均需25.7次工具调用；• 全面评测Gemini-3-Pro、Claude-3.5、Qwen-VL-Max等12个SOTA模型，发现最高准确率仅27.3%（Gemini-3-Pro），暴露根本性能力断层；• 已开源全部任务数据、评估框架及参考解决方案（GitHub: agentvista-benchmark）；值得深入：视觉-动作对齐建模、工具调用记忆压缩、失败路径自修复机制。
相关研究

• MMMU (2023): 大规模多学科多模态理解基准，侧重单轮知识推理，无工具交互；• VQA-v2 / OK-VQA: 经典视觉问答数据集，静态图像+单跳问答；• ToolBench (2023) & API-Bank (2023): 纯文本工具调用基准，缺失视觉输入与跨模态 grounding；• VisWiz (2022): 视觉辅助网页操作数据集，但限于UI操作，未整合图像分析与外部搜索；• Multimodal-ToolLLM (2024): 多模态工具调用模型，但评估仅限合成简单任务，无真实长周期工作流。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问