ScreenAI: A Vision-Language Model for UI and Infographics Understanding

2024年02月07日
  • 简介
    屏幕用户界面(UI)和信息图表在视觉语言和设计原则方面相似,对于人类交流和人机交互起着重要作用。我们介绍了ScreenAI,这是一个专门用于UI和信息图表理解的视觉语言模型。我们的模型改进了PaLI架构,并采用了pix2struct的灵活修补策略,并在独特的混合数据集上进行训练。在这个混合数据集的核心是一个新颖的屏幕注释任务,模型必须识别UI元素的类型和位置。我们使用这些文本注释将屏幕描述给大型语言模型,并自动生成规模化的问答、UI导航和摘要训练数据集。我们进行了消融研究,以证明这些设计选择的影响。仅有5B个参数的ScreenAI在UI和信息图表任务(多页DocVQA、WebSRC、MoTIF和Widget字幕)上取得了新的最先进的结果,并与类似大小的模型相比,在其他任务(图表QA、DocVQA和信息图表QA)上获得了最佳性能。最后,我们发布了三个新数据集:一个专注于屏幕注释任务,另外两个专注于问答。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文旨在介绍ScreenAI,一种专门用于UI和信息图形理解的视觉语言模型。该模型通过对多个数据集的训练,解决了UI元素识别、QA、UI导航和摘要等多个任务。
  • 关键思路
    论文采用了基于Pix2Struct的灵活补丁策略,结合PaLI架构,提出了ScreenAI模型。该模型通过独特的屏幕注释任务,将UI元素的类型和位置进行标注,以此来描述屏幕,从而训练大型语言模型。
  • 其它亮点
    论文通过实验验证了ScreenAI在多个UI和信息图形任务上的表现,取得了新的最优性能。同时,论文还公开了三个新数据集,其中一个专注于屏幕注释任务,另外两个专注于问答任务。此外,论文还探讨了模型设计的影响,并提供了开源代码。
  • 相关研究
    在相关研究方面,论文提到了多篇先前的工作,如Chart QA、DocVQA和InfographicVQA等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问