WebCanvas: Benchmarking Web Agents in Online Environments

简介

为了使网络代理程序实际有用，它们必须适应不断更新的用户界面和内容的不断演变的网络环境。然而，大多数现有的基准测试只捕捉网络的静态方面。为了弥补这一差距，我们介绍了WebCanvas，这是一个创新的在线评估框架，为网络代理程序有效地解决了网络交互动态性的问题。WebCanvas包含三个主要组件，以促进真实的评估：（1）一种新颖的评估指标，可可靠地捕捉完成任务所必需的关键中间操作或状态，同时忽略由不重要的事件或更改的网络元素引起的噪声。（2）一个基准数据集，称为Mind2Web-Live，是原始Mind2Web静态数据集的精细版本，包含542个任务和2439个中间评估状态；（3）轻量级和通用的注释工具和测试管道，使社区能够收集和维护高质量、最新的数据集。基于WebCanvas，我们开源了一个代理框架，其中包括可扩展的推理模块，为社区进行在线推理和评估提供了基础。我们最优秀的代理程序在Mind2Web-Live测试集上实现了23.1%的任务成功率和48.8%的任务完成率。此外，我们分析了不同网站、领域和实验环境之间的性能差异。我们鼓励社区进一步贡献关于在线代理程序评估的见解，从而推进这个研究领域的发展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决动态Web环境下评估Web代理的问题，提出了一个能够捕捉关键中间步骤的评估指标和一个包含中间评估状态的基准数据集。
关键思路

论文提出了一个在线评估框架WebCanvas，能够有效地评估Web代理在动态Web环境下的性能，并且开源了一个基于WebCanvas的代理框架。
其它亮点

论文的亮点包括：提出了能够捕捉关键中间步骤的评估指标；提供了一个包含中间评估状态的基准数据集Mind2Web-Live；开源了一个基于WebCanvas的代理框架；分析了不同网站、领域和实验环境下的性能差异。
相关研究

相关研究包括：静态Web代理评估数据集Mind2Web；Web界面测试自动化工具Selenium等。

WebCanvas: Benchmarking Web Agents in Online Environments

提问交流

提问交流