DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs

简介

大多数大型多模态模型（LMM）是通过将视觉标记作为序列输入到大型语言模型（LLM）的第一层中来实现的。由此产生的架构简单但显著增加了计算和内存成本，因为它必须处理其输入层中大量的附加标记。本文提出了一种新的LMM架构DeepStack。考虑到LMM的语言和视觉变换器中的$N$层，我们将视觉标记堆叠成$N$组，并将每个组从底部到顶部馈送到其对齐的变换器层。令人惊讶的是，这种简单的方法极大地增强了LMM对跨层视觉标记之间相互作用的建模能力，但增加的成本很小。我们将DeepStack应用于LMM的语言和视觉变换器，并通过广泛的实证结果验证了DeepStack LMM的有效性。在使用相同的上下文长度的情况下，我们的DeepStack 7B和13B参数在9个基准测试中平均超过它们的对应项分别为2.7和2.9。仅使用上下文长度的五分之一，DeepStack与使用完整上下文长度的对应项相当接近。这些收益在高分辨率任务上尤为显著，例如与LLaVA-1.5-7B相比，在TextVQA、DocVQA和InfoVQA上分别获得了4.2、11.0和4.0的改进。我们进一步将DeepStack应用于视觉变换器层，这给我们带来了类似数量的改进，与LLaVA-1.5-7B相比平均提高了3.8。
图表
解决问题

论文旨在提出一种新的架构DeepStack，用于解决大型多模态模型（LMMs）中的计算和内存成本问题，以便更好地建模视觉令牌之间的交互。
关键思路

DeepStack架构将视觉令牌分组，并将每组令牌分别输入到对应的语言和视觉变换器层中，从而大大提高了LMMs的建模能力，同时减少了额外的计算和内存成本。
其它亮点

论文使用了广泛的实验验证了DeepStack的有效性，并证明DeepStack在高分辨率任务上的性能比其他模型更好。论文还将DeepStack应用于视觉变换器层，并取得了类似的改进。论文提供了开源代码和使用的数据集。
相关研究

最近的相关研究包括：《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。

DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs

评论