- 简介一种新兴的语言模型家族(LMs)能够在单个视觉视图中处理文本和图像,有望解锁复杂的任务,如图表理解和UI导航。我们将这些模型称为屏幕截图语言模型。尽管它们很有吸引力,但现有的屏幕截图LM在语言理解任务上远远落后于纯文本模型。为了弥补这一差距,我们采用了一个简化的设置,其中模型输入是纯文本渲染的屏幕截图,并专注于提高屏幕截图LM的文本能力。我们提出了一种新颖的Patch-and-Text Prediction(PTP)目标,它掩盖并恢复屏幕截图中的图像补丁和文本。我们还进行了大量的消融研究,包括掩盖率和补丁大小,以及改善训练稳定性的设计。我们的预训练模型仅使用视觉输入,在8个GLUE任务中有6个任务的表现与BERT相当(误差在2%以内),并比之前的工作提高了8%。此外,我们将PTP扩展到训练自回归屏幕截图LM,并证明其有效性 - 我们的模型可以通过利用屏幕截图上下文显著降低困惑度。综上所述,我们希望我们的发现能够激发未来研究,开发强大的屏幕截图LM并将其推广到更广泛的应用中。
-
- 图表
- 解决问题论文试图提高截图语言模型(screenshot language models)的文本理解能力,以便更好地处理图表理解和UI导航等任务。
- 关键思路论文提出了一种新的Patch-and-Text Prediction(PTP)目标函数,用于训练模型以遮盖和恢复截图中的图像块和文本,从而提高截图语言模型的文本理解能力。研究还扩展了PTP方法,训练自回归截图语言模型,以更好地利用截图上下文信息。
- 其它亮点论文使用了一种新的目标函数来提高截图语言模型的文本理解能力,实验结果表明该方法在6个GLUE任务中的表现与BERT相当,并且比之前的工作提高了8%。研究还扩展了PTP方法,训练自回归截图语言模型,进一步提高了模型的性能。
- 最近相关的研究包括:《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》、《VL-BERT: Pre-training of Generic Visual-Linguistic Representations》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流