- 简介文件是二维载体,用于书面交流,因此对其进行解释需要多模态方法,即高效地结合文本和视觉信息。由于多模态的特性,文件视觉问答(Document VQA)引起了文档理解和自然语言处理社区的极大兴趣。最先进的单页Document VQA方法表现出色,但在多页情况下,这些方法则表现不佳。它们必须将所有页面连接成一个大页面进行处理,甚至在评估时也需要大量的GPU资源。在本文中,我们提出了一种新颖的方法和高效的训练策略,用于多页Document VQA任务。具体而言,我们采用仅视觉的文档表示,利用文档理解模型Pix2Struct的编码器。我们的方法利用自我注意力评分机制为每个文档页面生成相关性分数,从而使得检索相关页面成为可能。这种适应性使我们能够将单页Document VQA模型扩展到多页情况,而不会在评估期间对页面数量施加限制,同时对GPU资源的需求也很小。我们的广泛实验不仅证明了在不需要光学字符识别(OCR)的情况下实现了最先进的性能,而且在扩展到近800页的文档情况下也能保持持续的性能,而MP-DocVQA数据集最多只有20页。我们的代码公开在\url{https://github.com/leitro/SelfAttnScoring-MPDocVQA}。
-
- 图表
- 解决问题本论文旨在解决多页文档视觉问答(Document VQA)中单页方法无法处理大量页面的问题,提出了一种新的方法和有效的训练策略。
- 关键思路该论文的关键思路是利用文档理解模型Pix2Struct的编码器,采用仅视觉的文档表示,并使用自注意力评分机制为每个文档页面生成相关性分数,从而检索相关页面。
- 其它亮点该论文的亮点包括:在多页文档中实现了单页Document VQA模型的扩展;无需光学字符识别(OCR)即可实现最先进的性能;在近800页的文档中保持了持续的表现;代码公开可用。
- 与该论文相关的研究包括单页Document VQA方法和多页Document VQA方法。其中一些论文标题包括:“DocVQA: A Dataset for VQA on Document Images”和“LayoutLM: Pre-training of Text and Layout for Document Image Understanding”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流