- 简介最近,随着自动文档理解需求的增加和能够处理基于文档问题的生成式大型语言模型(LLM)的出现,视觉定位文本解析(VsTP)取得了显着进展。已经提出了各种方法来解决VsTP这一具有挑战性的问题。然而,由于目标多样化和异构模式,以往的工作通常为各个任务设计特定的架构和目标,这不经意间导致了模态隔离和复杂的工作流程。在本文中,我们提出了一种统一的范式,用于在不同场景下解析视觉定位文本。具体而言,我们设计了一个通用模型,称为OmniParser,可以同时处理三个典型的视觉定位文本解析任务:文本定位、关键信息提取和表格识别。在OmniParser中,所有任务共享统一的编码器-解码器架构、统一的目标:点条件文本生成,以及统一的输入和输出表示:提示和结构化序列。广泛的实验表明,尽管其设计统一而简洁,但所提出的OmniParser在三个视觉定位文本解析任务的7个数据集上实现了最先进(SOTA)或高度竞争的性能。代码可在https://github.com/AlibabaResearch/AdvancedLiterateMachinery上获得。
-
- 图表
- 解决问题本论文旨在提出一种统一的范式来处理多样化的视觉文本解析任务,包括文本定位、关键信息提取和表格识别,以解决任务特定架构和目标带来的模态孤立和复杂流程等问题。
- 关键思路本论文提出了一种通用的模型OmniParser,它采用统一的编码器-解码器架构、统一的目标:点条件文本生成,以及统一的输入和输出表示形式:提示和结构化序列,能够同时处理三种典型的视觉文本解析任务,并在7个数据集上取得了最先进或高度竞争的性能。
- 其它亮点本论文的亮点包括:1. 提出了一种通用的模型,能够同时处理多种视觉文本解析任务;2. 采用了统一的架构和目标,避免了模态孤立和复杂流程;3. 在多个数据集上取得了最先进或高度竞争的性能;4. 提供了开源代码。
- 近期在这个领域的相关研究包括:1. TextDragon: An End-to-End Framework for Arbitrary Shaped Text Spotting [Liu et al., 2021]; 2. TableBank: Table Benchmark for Image-based Table Recognition [Liang et al., 2018]; 3. Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework [Busta et al., 2017]。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流