Tur[k]ingBench: A Challenge Benchmark for Web Agents

简介

最近的聊天机器人展现出了惊人的理解和使用原始文本的能力。然而，世界上不仅仅有原始文本。例如，人类花费大量时间在网页上，其中文本与其他模态交织在一起，并且任务以各种复杂的交互形式完成。最先进的多模态模型能否推广到这种复杂的领域呢？为了回答这个问题，我们介绍了TurkingBench，一个以包含多模态上下文的文本说明为基础的任务基准。与现有的使用人工合成网页的工作不同，这里我们使用最初设计用于众包工人进行各种注释目的的自然HTML页面。每个任务的HTML说明也使用各种值（从众包任务中获得）进行实例化，以形成任务的新实例。这个基准包含32.2K个实例，分布在158个任务中。此外，为了方便在TurkingBench上进行评估，我们开发了一个评估框架，将聊天机器人的响应与对网页的修改（修改文本框，检查单选按钮等）连接起来。我们评估了最先进的模型，包括仅使用语言、仅使用视觉和仅使用布局的模型以及它们的组合在这个基准上的性能。我们的发现表明，这些模型的表现显著优于随机机会，但还有很大的改进空间。我们希望这个基准能够帮助促进基于Web的代理的评估和开发。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探讨最新的多模态模型是否能够适应包含文本、图像、布局等多种形式的复杂交互任务，以及如何评估这些模型的性能。
关键思路

论文提出了一个基于众包任务的多模态基准测试集TurkingBench，其中包含158个任务、32.2K个实例，并且开发了一个评估框架来连接聊天机器人的响应和网页的修改。同时，论文还探究了语言、视觉和布局模型的组合对性能的影响。
其它亮点

TurkingBench是一个自然的HTML页面多模态基准测试集，相比于现有的人工合成的页面，具有更高的现实性。论文的实验结果表明，当前的多模态模型在TurkingBench上表现良好，但仍有很大的提升空间。
相关研究

近期的相关研究包括使用视觉和语言信息进行多模态推理的Transformer模型、使用交互式学习进行多模态对话的模型等。

Tur[k]ingBench: A Challenge Benchmark for Web Agents

提问交流

提问交流