- 简介大多数大型多模态模型(LMM)是通过将视觉标记作为序列输入到大型语言模型(LLM)的第一层中来实现的。由此产生的架构简单但显著增加了计算和内存成本,因为它必须处理其输入层中大量的附加标记。本文提出了一种新的LMM架构DeepStack。考虑到LMM的语言和视觉变换器中的$N$层,我们将视觉标记堆叠成$N$组,并将每个组从底部到顶部馈送到其对齐的变换器层。令人惊讶的是,这种简单的方法极大地增强了LMM对跨层视觉标记之间相互作用的建模能力,但增加的成本很小。我们将DeepStack应用于LMM的语言和视觉变换器,并通过广泛的实证结果验证了DeepStack LMM的有效性。在使用相同的上下文长度的情况下,我们的DeepStack 7B和13B参数在9个基准测试中平均超过它们的对应项分别为2.7和2.9。仅使用上下文长度的五分之一,DeepStack与使用完整上下文长度的对应项相当接近。这些收益在高分辨率任务上尤为显著,例如与LLaVA-1.5-7B相比,在TextVQA、DocVQA和InfoVQA上分别获得了4.2、11.0和4.0的改进。我们进一步将DeepStack应用于视觉变换器层,这给我们带来了类似数量的改进,与LLaVA-1.5-7B相比平均提高了3.8。
- 图表
- 解决问题论文旨在提出一种新的架构DeepStack,用于解决大型多模态模型(LMMs)中的计算和内存成本问题,以便更好地建模视觉令牌之间的交互。
- 关键思路DeepStack架构将视觉令牌分组,并将每组令牌分别输入到对应的语言和视觉变换器层中,从而大大提高了LMMs的建模能力,同时减少了额外的计算和内存成本。
- 其它亮点论文使用了广泛的实验验证了DeepStack的有效性,并证明DeepStack在高分辨率任务上的性能比其他模型更好。论文还将DeepStack应用于视觉变换器层,并取得了类似的改进。论文提供了开源代码和使用的数据集。
- 最近的相关研究包括:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢