AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents

2024年05月23日
  • 简介
    自主代理人通过控制计算机执行人类任务,可以提高人类生产力和应用程序的可访问性。然而,这个领域的进展将由现实和可重复的基准推动。我们提出了AndroidWorld,这是一个完全功能的Android环境,为20个真实的Android应用程序中的116个编程任务工作流提供奖励信号。与现有的交互式环境不同,AndroidWorld动态构建任务,这些任务是参数化的,并以自然语言的方式表达,因此可以在更大和更现实的任务套件上进行测试。奖励信号来自计算机的系统状态,使它们可以跨任务变化持久存在,并且可以在不同的应用程序之间进行扩展。为了展示AndroidWorld的好处和操作方式,我们介绍了一个新的计算机控制代理M3A。M3A可以完成AndroidWorld任务的30.6%,留下了充足的空间供未来工作。此外,我们将一款受欢迎的桌面Web代理适配到Android上,发现其在移动端效果较差,这表明未来需要进行研究以实现通用的跨领域代理。最后,我们通过在代表性任务的子集上测试M3A对一系列任务变化进行了鲁棒性分析,证明任务参数的变化可以显著改变任务的复杂性,因此代理人的性能,突显了在不同条件下测试代理的重要性。 AndroidWorld和本文中的实验可在https://github.com/google-research/android_world上获得。
  • 图表
  • 解决问题
    AndroidWorld: A Benchmark for Interactive Reinforcement Learning on Android
  • 关键思路
    AndroidWorld provides a fully functioning Android environment that enables testing on a much larger and realistic suite of tasks, and derives reward signals from the computer's system state, making them durable across task variations and extensible across different apps.
  • 其它亮点
    The paper introduces a new benchmark for interactive reinforcement learning on Android, with 116 programmatic task workflows across 20 real world Android applications. The reward signals are derived from the computer's system state, making them durable across task variations and extensible across different apps. The paper also introduces a new computer control agent, M3A, which can complete 30.6% of the AndroidWorld's tasks. The experiments and AndroidWorld are available at https://github.com/google-research/android_world.
  • 相关研究
    Related work includes existing interactive environments that provide a static test set, and research on reinforcement learning on mobile devices and cross-domain agents.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论