Aria-UI: Visual Grounding for GUI Instructions

向作者提问

NEW

简介

用于跨不同平台直接操作图形用户界面（GUI）以自动化任务的数字代理越来越重要。对于这些代理而言，从语言指令到目标元素的映射仍然是一个重大挑战，这主要是由于依赖于HTML或AXTree输入。在本文中，我们介绍了Aria-UI，这是一个专门为GUI映射设计的大型多模态模型。Aria-UI采用纯视觉方法，避免了对辅助输入的依赖。为了适应多样化的规划指令，我们提出了一种可扩展的数据管道，能够合成多样化且高质量的指令样本以实现映射。为了处理任务执行中的动态环境，Aria-UI结合了文本和图文交错的动作历史记录，使得映射过程中的上下文感知推理更加稳健。Aria-UI在离线和在线代理基准测试中均取得了新的最佳结果，超过了仅依赖视觉和依赖AXTree的基线模型。我们发布了所有训练数据和模型检查点，以促进进一步的研究，详情请见https://ariaui.github.io。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决数字代理在不同平台上通过直接操控GUI（图形用户界面）来自动化任务时，从语言指令到目标元素的定位这一重大挑战。传统的解决方案依赖于HTML或AXTree输入，这限制了其灵活性和适应性。这是一个长期存在的问题，但随着对跨平台自动化需求的增长，它变得越来越重要。
关键思路

Aria-UI的关键思路是采用纯视觉方法进行GUI定位，完全不依赖辅助输入如HTML或AXTree。这种创新使得模型能够更灵活地适应不同的GUI环境，并提高了模型的泛化能力。此外，为了应对多样化的指令，研究者提出了一种可扩展的数据管道，用于生成高质量的指令样本。同时，Aria-UI还结合了文本和图文交错的动作历史记录，以增强上下文感知能力，从而实现更准确的定位。
其它亮点

Aria-UI在离线和在线代理基准测试中均取得了新的最先进成果，超越了仅依赖视觉和基于AXTree的传统基线模型。研究团队还开源了所有训练数据和模型检查点，为后续研究提供了宝贵资源。实验设计涵盖了多种实际应用场景，验证了模型的有效性和鲁棒性。未来的研究可以进一步探索如何将Aria-UI应用于更多复杂场景，并优化其性能。
相关研究

最近在这个领域中，其他相关研究包括：1.《Vision-and-Language Navigation: Interpreting Visually-Grounded Natural Language Instructions in Indoor Environments》；2.《Learning to Parse and Execute Natural Language Instructions for GUI Interaction》；3.《Interactive Visual Reasoning with Large-Scale Pre-trained Models》。这些研究都致力于提高AI系统理解和执行自然语言指令的能力，特别是在与GUI交互方面。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问