Improving Language Understanding from Screenshots

向作者提问

NEW

简介

一种新兴的语言模型家族（LMs）能够在单个视觉视图中处理文本和图像，有望解锁复杂的任务，如图表理解和UI导航。我们将这些模型称为屏幕截图语言模型。尽管它们很有吸引力，但现有的屏幕截图LM在语言理解任务上远远落后于纯文本模型。为了弥补这一差距，我们采用了一个简化的设置，其中模型输入是纯文本渲染的屏幕截图，并专注于提高屏幕截图LM的文本能力。我们提出了一种新颖的Patch-and-Text Prediction（PTP）目标，它掩盖并恢复屏幕截图中的图像补丁和文本。我们还进行了大量的消融研究，包括掩盖率和补丁大小，以及改善训练稳定性的设计。我们的预训练模型仅使用视觉输入，在8个GLUE任务中有6个任务的表现与BERT相当（误差在2%以内），并比之前的工作提高了8%。此外，我们将PTP扩展到训练自回归屏幕截图LM，并证明其有效性 - 我们的模型可以通过利用屏幕截图上下文显著降低困惑度。综上所述，我们希望我们的发现能够激发未来研究，开发强大的屏幕截图LM并将其推广到更广泛的应用中。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图提高截图语言模型（screenshot language models）的文本理解能力，以便更好地处理图表理解和UI导航等任务。
关键思路

论文提出了一种新的Patch-and-Text Prediction（PTP）目标函数，用于训练模型以遮盖和恢复截图中的图像块和文本，从而提高截图语言模型的文本理解能力。研究还扩展了PTP方法，训练自回归截图语言模型，以更好地利用截图上下文信息。
其它亮点

论文使用了一种新的目标函数来提高截图语言模型的文本理解能力，实验结果表明该方法在6个GLUE任务中的表现与BERT相当，并且比之前的工作提高了8%。研究还扩展了PTP方法，训练自回归截图语言模型，进一步提高了模型的性能。
相关研究

最近相关的研究包括：《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》、《VL-BERT: Pre-training of Generic Visual-Linguistic Representations》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问