TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models

2024年04月14日
  • 简介
    多模态大型语言模型(MLLMs)已经在各种多模态任务中展现出了惊人的成果。然而,大多数现有的MLLMs并不适合面向文档的任务,这些任务需要精细的图像感知和信息压缩。在本文中,我们提出了TextHawk,这是一个专门设计用于面向文档任务的MLLM,同时保留了MLLM的一般功能。TextHawk旨在通过设计四个专用组件来探索高效的精细感知。首先,我们提出了一个重新采样和重新排列(ReSA)模块,以减少文档文本中的冗余并降低MLLM的计算成本。我们探索了通过提供可扩展的位置嵌入(SPEs)来编码每个局部特征的位置,这可以保留各种图像尺寸的可扩展性。然后采用查询提议网络(QPN)来动态初始化不同子图像之间的查询。为了进一步增强MLLM的精细视觉感知能力,我们设计了一个多级交叉注意力(MLCA)机制,捕捉文档图像的层次结构和语义关系。此外,我们通过使用Gemini Pro丰富多模态文档数据,创建了一个新的面向文档任务的指令调整数据集。我们在通用和面向文档的MLLM基准测试上进行了广泛的实验,并展示了TextHawk优于现有方法的最新成果,证明了它在精细文档感知和一般能力方面的有效性和优越性。
  • 图表
  • 解决问题
    本文旨在设计一种专门针对文档任务的多模态大语言模型(MLLM),并探索高效的细粒度图像感知。
  • 关键思路
    该模型引入了四个专门的组件,包括重新采样和重新排列模块、可扩展的位置嵌入、查询提议网络、多级交叉注意力机制,以解决文档任务中的细粒度图像感知问题。
  • 其它亮点
    作者针对文档任务创建了一个新的指令调整数据集,并在通用和文档任务的MLLM基准测试上进行了广泛实验,证明了TextHawk在细粒度文档感知和通用能力方面的有效性和优越性。
  • 相关研究
    最近的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论