Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

2024年06月27日
  • 简介
    图形用户界面(GUI)是我们与数字设备交互的核心。最近,人们不断努力建立各种GUI理解任务的模型。然而,这些努力在很大程度上忽视了一个重要的GUI参考任务:基于用户指示点的屏幕阅读,我们称之为屏幕点读(SPR)任务。这个任务主要由刚性的可访问屏幕阅读工具处理,急需新的模型来推动多模式大语言模型(MLLMs)的发展。在本文中,我们提出了一种名为镜头树(ToL)代理的模型,利用一种新颖的ToL接地机制来解决SPR任务。基于输入点坐标和相应的GUI截图,我们的ToL代理构建了一个分层布局树。基于这棵树,我们的ToL代理不仅理解指定区域的内容,而且表达元素之间的布局和空间关系。这种布局信息对于准确解释屏幕上的信息至关重要,使我们的ToL代理与其他屏幕阅读工具区分开来。我们还在一个新提出的SPR基准测试上对ToL代理进行了全面评估,其中包括移动、Web和操作系统的GUI。最后但并非最不重要的是,我们在移动GUI导航任务上测试了ToL代理,展示了它在识别代理执行轨迹路径上的错误操作方面的实用性。代码和数据:screen-point-and-read.github.io。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决GUI阅读任务中的屏幕点读问题,提出了一种基于Tree-of-Lens(ToL)代理的解决方案。
  • 关键思路
    ToL代理利用一种新颖的ToL基础机制,根据用户指定的点坐标和GUI截图构建层次布局树,从而理解指定区域的内容并表达元素之间的布局和空间关系。
  • 其它亮点
    论文对新提出的SPR任务进行了全面评估,并将ToL代理与其他基线进行了比较。实验结果表明,ToL代理在移动、Web和操作系统等各种GUI上表现出色。此外,论文还测试了ToL代理在移动GUI导航任务中的效果,并开源了代码和数据。
  • 相关研究
    最近的相关研究包括GUI理解任务的各种模型,但大多数研究都忽略了SPR任务。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问