ScreenAI: A Vision-Language Model for UI and Infographics Understanding

简介

屏幕用户界面（UI）和信息图表在视觉语言和设计原则方面相似，对于人类交流和人机交互起着重要作用。我们介绍了ScreenAI，这是一个专门用于UI和信息图表理解的视觉语言模型。我们的模型改进了PaLI架构，并采用了pix2struct的灵活修补策略，并在独特的混合数据集上进行训练。在这个混合数据集的核心是一个新颖的屏幕注释任务，模型必须识别UI元素的类型和位置。我们使用这些文本注释将屏幕描述给大型语言模型，并自动生成规模化的问答、UI导航和摘要训练数据集。我们进行了消融研究，以证明这些设计选择的影响。仅有5B个参数的ScreenAI在UI和信息图表任务（多页DocVQA、WebSRC、MoTIF和Widget字幕）上取得了新的最先进的结果，并与类似大小的模型相比，在其他任务（图表QA、DocVQA和信息图表QA）上获得了最佳性能。最后，我们发布了三个新数据集：一个专注于屏幕注释任务，另外两个专注于问答。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在介绍ScreenAI，一种专门用于UI和信息图形理解的视觉语言模型。该模型通过对多个数据集的训练，解决了UI元素识别、QA、UI导航和摘要等多个任务。
关键思路

论文采用了基于Pix2Struct的灵活补丁策略，结合PaLI架构，提出了ScreenAI模型。该模型通过独特的屏幕注释任务，将UI元素的类型和位置进行标注，以此来描述屏幕，从而训练大型语言模型。
其它亮点

论文通过实验验证了ScreenAI在多个UI和信息图形任务上的表现，取得了新的最优性能。同时，论文还公开了三个新数据集，其中一个专注于屏幕注释任务，另外两个专注于问答任务。此外，论文还探讨了模型设计的影响，并提供了开源代码。
相关研究

在相关研究方面，论文提到了多篇先前的工作，如Chart QA、DocVQA和InfographicVQA等。

ScreenAI: A Vision-Language Model for UI and Infographics Understanding

提问交流

提问交流