Aria-UI: Visual Grounding for GUI Instructions

2024年12月20日
  • 简介
    用于跨不同平台直接操作图形用户界面(GUI)以自动化任务的数字代理越来越重要。对于这些代理而言,从语言指令到目标元素的映射仍然是一个重大挑战,这主要是由于依赖于HTML或AXTree输入。在本文中,我们介绍了Aria-UI,这是一个专门为GUI映射设计的大型多模态模型。Aria-UI采用纯视觉方法,避免了对辅助输入的依赖。为了适应多样化的规划指令,我们提出了一种可扩展的数据管道,能够合成多样化且高质量的指令样本以实现映射。为了处理任务执行中的动态环境,Aria-UI结合了文本和图文交错的动作历史记录,使得映射过程中的上下文感知推理更加稳健。Aria-UI在离线和在线代理基准测试中均取得了新的最佳结果,超过了仅依赖视觉和依赖AXTree的基线模型。我们发布了所有训练数据和模型检查点,以促进进一步的研究,详情请见https://ariaui.github.io。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决数字代理在不同平台上通过直接操控GUI(图形用户界面)来自动化任务时,从语言指令到目标元素的定位这一重大挑战。传统的解决方案依赖于HTML或AXTree输入,这限制了其灵活性和适应性。这是一个长期存在的问题,但随着对跨平台自动化需求的增长,它变得越来越重要。
  • 关键思路
    Aria-UI的关键思路是采用纯视觉方法进行GUI定位,完全不依赖辅助输入如HTML或AXTree。这种创新使得模型能够更灵活地适应不同的GUI环境,并提高了模型的泛化能力。此外,为了应对多样化的指令,研究者提出了一种可扩展的数据管道,用于生成高质量的指令样本。同时,Aria-UI还结合了文本和图文交错的动作历史记录,以增强上下文感知能力,从而实现更准确的定位。
  • 其它亮点
    Aria-UI在离线和在线代理基准测试中均取得了新的最先进成果,超越了仅依赖视觉和基于AXTree的传统基线模型。研究团队还开源了所有训练数据和模型检查点,为后续研究提供了宝贵资源。实验设计涵盖了多种实际应用场景,验证了模型的有效性和鲁棒性。未来的研究可以进一步探索如何将Aria-UI应用于更多复杂场景,并优化其性能。
  • 相关研究
    最近在这个领域中,其他相关研究包括:1.《Vision-and-Language Navigation: Interpreting Visually-Grounded Natural Language Instructions in Indoor Environments》;2.《Learning to Parse and Execute Natural Language Instructions for GUI Interaction》;3.《Interactive Visual Reasoning with Large-Scale Pre-trained Models》。这些研究都致力于提高AI系统理解和执行自然语言指令的能力,特别是在与GUI交互方面。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问