WebCanvas: Benchmarking Web Agents in Online Environments

2024年06月18日
  • 简介
    为了使网络代理在实践中有用,它们必须适应不断更新的用户界面和内容的不断演变的网络环境。然而,大多数现有的基准测试只捕捉网络的静态方面。为了弥补这一差距,我们引入了WebCanvas,这是一个创新的在线评估框架,针对网络交互的动态性进行了有效的解决。WebCanvas包含三个主要组件来促进实际评估:(1)一种新颖的评估指标,可可靠地捕捉完成任务所必需的关键中间操作或状态,同时忽略由于不重要的事件或更改的网络元素而产生的噪声。(2)Mind2Web-Live基准数据集,这是原始Mind2Web静态数据集的精细版本,包含542个任务和2439个中间评估状态;(3)轻量级和通用的注释工具和测试流水线,使社区能够收集和维护高质量、最新的数据集。基于WebCanvas,我们开源了一个代理框架,具有可扩展的推理模块,为社区进行在线推理和评估提供了基础。我们的最佳表现代理在Mind2Web-Live测试集上达到了23.1%的任务成功率和48.8%的任务完成率。此外,我们分析了不同网站、领域和实验环境之间的性能差异。我们鼓励社区对在线代理评估做出进一步的贡献,从而推动这个研究领域的发展。
  • 图表
  • 解决问题
    论文试图解决动态Web环境下Web代理评估的问题,如何能够捕捉任务完成所需的关键中间步骤,同时忽略无关事件和更改的Web元素?
  • 关键思路
    WebCanvas是一个在线评估框架,包含一个可靠的评估指标,一个基准数据集Mind2Web-Live和注释工具和测试流水线,可以有效地解决动态Web环境下Web代理评估的问题。
  • 其它亮点
    论文提供了一个开源的代理框架,具有可扩展的模块,用于推理和评估。Mind2Web-Live数据集包含542个任务和2439个中间评估状态。作者分析了不同网站、域和实验环境下的性能差异,并鼓励社区为在线代理评估做出更多贡献。
  • 相关研究
    最近的相关研究包括Static-DOM和Dynamic-DOM等静态和动态Web代理评估框架。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论