- 简介将高分辨率的文档图像裁剪成多个子图像是当前多模态大语言模型(MLLM)进行文档理解的最常用方法。目前大部分文档理解方法保留子图像中的所有标记,并同等对待它们,这忽略了它们不同的信息量,并导致图像标记数量的显著增加。为了执行更自适应和高效的文档理解,我们提出了一种基于标记级相关性引导压缩的方法(Token-level Correlation-guided Compression),这是一种无需参数且即插即用的方法,用于优化标记处理。首先,我们提出了一种基于每个补丁标记之间的相关性评估模式重复性的创新方法。该方法识别冗余标记,从而确定子图像的信息密度。其次,我们提出了一种标记级抽样方法,通过深入探究[CLS]标记和补丁标记之间的相关性,有效地捕获最具信息量的标记。通过集成这些策略,我们开发了一个即插即用的自适应压缩模块,可以无缝地整合到使用裁剪技术的MLLM中。该模块不仅增强了训练和推理期间的处理速度,而且还保持了可比较的性能。我们使用SOTA文档理解模型mPLUG-DocOwl1.5进行实验,并通过与其他压缩方法的广泛比较证明了其有效性。
- 图表
- 解决问题本论文试图解决在当前多模态大语言模型中,对文档图像进行分割处理时,忽略不同信息密度的问题,导致处理速度慢和图像token数量增加的问题。
- 关键思路本论文提出了一种基于token级别相关性的压缩方法,通过评估图像中各个token之间的相关性,识别出冗余token,从而确定子图像的信息密度,然后使用基于CLS token和patch token相关性的采样方法,高效地捕捉最具信息量的token,最终开发出一个无需参数调整的自适应压缩模块,可以无缝地集成到使用分割技术的MLLMs中。
- 其它亮点本论文的亮点包括:1. 提出了一种新的基于token级别相关性的压缩方法,可以提高处理速度;2. 无需参数调整,可以直接集成到现有的MLLMs中;3. 实验结果表明,该方法可以在保持性能的同时提高处理速度;4. 使用了SOTA的文档理解模型mPLUG-DocOwl1.5进行实验,并与其他压缩方法进行了比较。
- 最近在这个领域中,还有一些相关研究,包括:1.《DocFormer: End-to-End Document Layout Understanding with Graph-based Attention》;2.《LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding》;3.《DocUNet: Document Image Unwarping via A Stacked U-Net》等。
沙发等你来抢
去评论
评论
沙发等你来抢