Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

简介

图形用户界面（GUI）是我们与数字设备交互的核心。最近，人们不断努力建立各种GUI理解任务的模型。然而，这些努力在很大程度上忽视了一个重要的GUI参考任务：基于用户指示点的屏幕阅读，我们称之为屏幕点读（SPR）任务。这个任务主要由刚性的可访问屏幕阅读工具处理，急需新的模型来推动多模式大语言模型（MLLMs）的发展。在本文中，我们提出了一种名为镜头树（ToL）代理的模型，利用一种新颖的ToL接地机制来解决SPR任务。基于输入点坐标和相应的GUI截图，我们的ToL代理构建了一个分层布局树。基于这棵树，我们的ToL代理不仅理解指定区域的内容，而且表达元素之间的布局和空间关系。这种布局信息对于准确解释屏幕上的信息至关重要，使我们的ToL代理与其他屏幕阅读工具区分开来。我们还在一个新提出的SPR基准测试上对ToL代理进行了全面评估，其中包括移动、Web和操作系统的GUI。最后但并非最不重要的是，我们在移动GUI导航任务上测试了ToL代理，展示了它在识别代理执行轨迹路径上的错误操作方面的实用性。代码和数据：screen-point-and-read.github.io。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决GUI阅读任务中的屏幕点读问题，提出了一种基于Tree-of-Lens（ToL）代理的解决方案。
关键思路

ToL代理利用一种新颖的ToL基础机制，根据用户指定的点坐标和GUI截图构建层次布局树，从而理解指定区域的内容并表达元素之间的布局和空间关系。
其它亮点

论文对新提出的SPR任务进行了全面评估，并将ToL代理与其他基线进行了比较。实验结果表明，ToL代理在移动、Web和操作系统等各种GUI上表现出色。此外，论文还测试了ToL代理在移动GUI导航任务中的效果，并开源了代码和数据。
相关研究

最近的相关研究包括GUI理解任务的各种模型，但大多数研究都忽略了SPR任务。

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

提问交流

提问交流