WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks?

向作者提问

NEW

简介

我们研究了基于大型语言模型的代理程序与软件通过Web浏览器交互的使用情况。与以往的工作不同，我们专注于测量代理程序执行跨越知识工作者典型日常工作的任务的能力，这些任务利用企业软件系统。为此，我们提出了WorkArena，这是一个远程托管的基于广泛使用的ServiceNow平台的29个任务的基准测试。我们还介绍了BrowserGym，这是一个用于设计和评估这种代理程序的环境，提供了丰富的操作和多模态观察。我们的实证评估表明，尽管当前代理程序在WorkArena上表现出了前景，但仍存在相当大的差距，以实现完全的任务自动化。值得注意的是，我们的分析揭示了开源和闭源LLM之间存在显着的性能差距，突出了未来探索和发展领域的关键领域。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在研究基于大型语言模型的代理与企业软件系统的交互能力，提出了一个基于ServiceNow平台的29项任务的远程基准测试WorkArena和一个环境设计和评估代理的BrowserGym。
关键思路

论文提出了一个基于大型语言模型的代理与企业软件系统的交互能力的测试方法，并发现当前代理在任务自动化方面仍存在巨大差距，同时也揭示了开源和闭源LLMs之间的性能差距。
其它亮点

论文提出了一种新的测试方法和环境，评估基于大型语言模型的代理在企业软件系统中的交互能力。实验结果表明，当前代理在任务自动化方面仍存在巨大差距，开源和闭源LLMs之间存在性能差距。
相关研究

最近的相关研究包括使用语言模型进行对话管理和任务自动化的研究，以及使用强化学习和迁移学习等技术来提高代理的性能。相关论文包括《Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems》和《Reinforcement Learning for Task-Oriented Dialogue Management》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问