AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents

2024年07月03日
  • 简介
    人工智能代理引起了越来越多的关注,主要是因为它们能够感知环境、理解任务并自主实现目标。为了推进移动场景下人工智能代理的研究,我们介绍了Android Multi-annotation EXpo(AMEX),这是一个针对通用移动GUI控制代理设计的全面、大规模数据集。这些代理通过直接与移动设备上的图形用户界面(GUI)进行交互的能力来完成复杂任务,并通过所提出的数据集进行训练和评估。AMEX包括来自110个流行移动应用程序的超过104K个高分辨率截图,这些截图在多个层次上进行了注释。与现有的移动设备控制数据集(例如MoTIF、AitW等)不同,AMEX包括三个注释级别:GUI交互元素定位、GUI屏幕和元素功能描述以及复杂的自然语言指令,每个指令平均包含13个步骤,具有逐步的GUI操作链。我们从更具指导性和详细的角度开发了这个数据集,补充了现有数据集的通用设置。此外,我们开发了一个基线模型SPHINX Agent,并比较了其在其他数据集上训练的最先进代理的性能。为了促进进一步的研究,我们开源了我们的数据集、模型和相关评估工具。该项目可在 https://yuxiangchai.github.io/AMEX/ 上获得。
  • 图表
  • 解决问题
    介绍了一个针对移动场景下的AI代理的全面大规模数据集AMEX,该数据集包含多层次注释,旨在训练和评估AI代理完成复杂任务的能力。
  • 关键思路
    AMEX数据集包含三个层次的注释,分别是GUI交互元素定位,GUI屏幕和元素功能描述,以及复杂的自然语言指令,可以帮助训练和评估AI代理在移动设备上直接与图形用户界面进行交互的能力。
  • 其它亮点
    AMEX数据集包含超过10万个高分辨率屏幕截图,涵盖110个流行的移动应用程序,提供了一个更具指导性和详细的视角,相较于现有数据集更加全面。此外,论文还开源了数据集、模型和相关评估工具。
  • 相关研究
    与该领域的相关研究包括MoTIF、AitW等移动设备控制数据集,以及其他针对AI代理的数据集,如GQA、CLEVR等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论