Improving Language Understanding from Screenshots

2024年02月21日
  • 简介
    一种新兴的语言模型家族(LMs)能够在单个视觉视图中处理文本和图像,有望解锁复杂的任务,如图表理解和UI导航。我们将这些模型称为屏幕截图语言模型。尽管它们很有吸引力,但现有的屏幕截图LM在语言理解任务上远远落后于纯文本模型。为了弥补这一差距,我们采用了一个简化的设置,其中模型输入是纯文本渲染的屏幕截图,并专注于提高屏幕截图LM的文本能力。我们提出了一种新颖的Patch-and-Text Prediction(PTP)目标,它掩盖并恢复屏幕截图中的图像补丁和文本。我们还进行了大量的消融研究,包括掩盖率和补丁大小,以及改善训练稳定性的设计。我们的预训练模型仅使用视觉输入,在8个GLUE任务中有6个任务的表现与BERT相当(误差在2%以内),并比之前的工作提高了8%。此外,我们将PTP扩展到训练自回归屏幕截图LM,并证明其有效性 - 我们的模型可以通过利用屏幕截图上下文显著降低困惑度。综上所述,我们希望我们的发现能够激发未来研究,开发强大的屏幕截图LM并将其推广到更广泛的应用中。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图提高截图语言模型(screenshot language models)的文本理解能力,以便更好地处理图表理解和UI导航等任务。
  • 关键思路
    论文提出了一种新的Patch-and-Text Prediction(PTP)目标函数,用于训练模型以遮盖和恢复截图中的图像块和文本,从而提高截图语言模型的文本理解能力。研究还扩展了PTP方法,训练自回归截图语言模型,以更好地利用截图上下文信息。
  • 其它亮点
    论文使用了一种新的目标函数来提高截图语言模型的文本理解能力,实验结果表明该方法在6个GLUE任务中的表现与BERT相当,并且比之前的工作提高了8%。研究还扩展了PTP方法,训练自回归截图语言模型,进一步提高了模型的性能。
  • 相关研究
    最近相关的研究包括:《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》、《VL-BERT: Pre-training of Generic Visual-Linguistic Representations》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问