WebCanvas: Benchmarking Web Agents in Online Environments

简介

为了使网络代理在实践中有用，它们必须适应不断更新的用户界面和内容的不断演变的网络环境。然而，大多数现有的基准测试只捕捉网络的静态方面。为了弥补这一差距，我们引入了WebCanvas，这是一个创新的在线评估框架，针对网络交互的动态性进行了有效的解决。WebCanvas包含三个主要组件来促进实际评估：（1）一种新颖的评估指标，可可靠地捕捉完成任务所必需的关键中间操作或状态，同时忽略由于不重要的事件或更改的网络元素而产生的噪声。（2）Mind2Web-Live基准数据集，这是原始Mind2Web静态数据集的精细版本，包含542个任务和2439个中间评估状态；（3）轻量级和通用的注释工具和测试流水线，使社区能够收集和维护高质量、最新的数据集。基于WebCanvas，我们开源了一个代理框架，具有可扩展的推理模块，为社区进行在线推理和评估提供了基础。我们的最佳表现代理在Mind2Web-Live测试集上达到了23.1%的任务成功率和48.8%的任务完成率。此外，我们分析了不同网站、领域和实验环境之间的性能差异。我们鼓励社区对在线代理评估做出进一步的贡献，从而推动这个研究领域的发展。
图表
解决问题

论文试图解决动态Web环境下Web代理评估的问题，如何能够捕捉任务完成所需的关键中间步骤，同时忽略无关事件和更改的Web元素？
关键思路

WebCanvas是一个在线评估框架，包含一个可靠的评估指标，一个基准数据集Mind2Web-Live和注释工具和测试流水线，可以有效地解决动态Web环境下Web代理评估的问题。
其它亮点

论文提供了一个开源的代理框架，具有可扩展的模块，用于推理和评估。Mind2Web-Live数据集包含542个任务和2439个中间评估状态。作者分析了不同网站、域和实验环境下的性能差异，并鼓励社区为在线代理评估做出更多贡献。
相关研究

最近的相关研究包括Static-DOM和Dynamic-DOM等静态和动态Web代理评估框架。

WebCanvas: Benchmarking Web Agents in Online Environments

评论