- 简介最近,多模态大语言模型(MLLMs)的发展引人注目,然而,这些通用领域的MLLMs在理解和有效地与用户界面(UI)屏幕交互方面往往表现不佳。在本文中,我们提出了Ferret-UI,这是一个新的MLLM,专门为增强对移动UI屏幕的理解而设计,具备指称、接地和推理能力。考虑到UI屏幕通常具有更长的纵横比,并包含比自然图像更小的感兴趣对象(例如图标、文本),我们在Ferret上增加了“任意分辨率”功能,以放大细节并利用增强的视觉特征。具体来说,每个屏幕根据原始纵横比分为2个子图像(即,纵向分割用于横屏屏幕,横向分割用于竖屏屏幕)。在发送到LLMs之前,两个子图像分别进行编码。我们从广泛的基本UI任务中精心收集训练样本,例如图标识别、查找文本和小部件列表。这些样本经过格式化处理,以区域注释的形式进行指令跟随,以便进行精确的指称和接地。为增强模型的推理能力,我们还编制了一个高级任务的数据集,包括详细描述、感知/交互对话和功能推理。在对策划的数据集进行训练后,Ferret-UI表现出对UI屏幕的出色理解能力和执行开放式指令的能力。为了评估模型,我们建立了一个综合基准,涵盖了所有上述任务。Ferret-UI不仅在大多数开源UI MLLMs之上表现出色,而且在所有基本UI任务上都超过了GPT-4V。
- 图表
- 解决问题本文旨在解决多模态大型语言模型(MLLMs)在理解和有效交互用户界面(UI)屏幕方面的不足。
- 关键思路本文提出了Ferret-UI,一种新的MLLM,专门针对移动UI屏幕进行了优化,具备指代、基础和推理能力。
- 其它亮点本文采用了“任何分辨率”的方法来放大细节和提高视觉特征,同时还编译了包括图标识别、查找文本和小部件列表等基本UI任务的数据集,并使用区域注释格式化这些样本,以便进行精确的指代和基础。此外,还编译了一个高级任务的数据集,包括详细描述、感知/交互对话和功能推断。经过训练后,Ferret-UI表现出了出色的UI屏幕理解能力和执行开放式指令的能力。本文还建立了一个全面的基准测试,涵盖了所有上述任务。Ferret-UI在所有基本UI任务上都优于大多数开源UI MLLMs,并超越了GPT-4V。
- 最近的相关研究包括:1)《VisualBERT: A Simple and Performant Baseline for Vision and Language》;2)《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》;3)《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。
沙发等你来抢
去评论
评论
沙发等你来抢