AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

简介

自主代理人处理日常数字任务（例如为家庭订购杂货）不仅必须通过API操作多个应用程序（例如笔记、消息、购物应用程序），还必须基于与环境的交互以迭代方式生成具有复杂控制流的丰富代码。然而，现有的工具使用基准不足，因为它们只涵盖需要简单API调用序列的任务。为了弥补这一差距，我们构建了高质量的执行环境（60K行代码）和一套750个自然、多样化和具有挑战性的自主代理人任务，需要进行丰富和交互式代码生成。该基准支持强大的编程评估，具有基于状态的单元测试，允许以不同的方式完成任务，同时还检查意外变化，即副作用。最先进的LLM、GPT-4o仅解决了我们“正常”任务的约49%和“挑战”任务的约30%，而其他模型解决的任务至少少16%。这凸显了基准的难度和AppWorld推动交互式编码代理人前沿的潜力。项目网站可在https://appworld.dev/上访问。
图表
解决问题

AppWorld Benchmark试图解决日常数字任务自动化代理领域中现有基准测试不足的问题，提供更具挑战性的任务和更复杂的代码生成。
关键思路

论文通过构建高质量执行环境AppWorld Engine和测试套件AppWorld Benchmark，提供了一个更具挑战性的基准测试，支持自动代理生成复杂的代码流，并进行程序化评估。
其它亮点

AppWorld Engine是一个包含9个日常应用程序的执行环境，支持457个API，并模拟大约100个虚构用户的数字活动。AppWorld Benchmark包括750个自然、多样化和具有挑战性的任务，支持状态基础单元测试，允许不同的任务完成方式和检查意外变化。实验结果表明，LLM和GPT-4o仅能解决约49%的'normal'任务和约30%的'challenge'任务，而其他模型的解决能力至少低16%。该基准测试的难度突出了AppWorld的潜力，可以推动交互式编程代理的前沿。
相关研究

最近在这个领域中，还有一些相关研究，如OpenAI的GPT模型，DeepMind的AlphaZero和MuZero模型等。

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

评论