- 简介在多模态大语言模型(MLLMs)领域中,视觉语言连接器在将预训练视觉编码器与大型语言模型(LLMs)连接起来方面起着至关重要的作用。尽管它的重要性,但视觉语言连接器的研究相对较少。在本研究中,我们旨在提出一个强大的视觉语言连接器,使MLLMs能够在保持低计算成本的同时实现高准确性。我们首先揭示了Vision Transformer中视觉锚点的存在,并提出了一种经济高效的搜索算法来提取它们。基于这些发现,我们引入了Anchor Former(AcFormer),一种新颖的视觉语言连接器,旨在利用从这些视觉锚点获得的丰富先验知识,在预训练期间引导信息的聚合。通过广泛的实验,我们证明了所提出的方法将计算成本降低了近三分之二,同时胜过基线方法。这凸显了AcFormer的有效性和效率。
- 图表
- 解决问题本论文旨在提出一种强大的视觉语言连接器,使多模态大语言模型(MLLMs)能够在保持低计算成本的同时实现高准确性。
- 关键思路本文首先揭示了Vision Transformer中视觉锚点的存在,并提出了一种经济高效的搜索算法来提取它们。基于这些发现,介绍了Anchor Former(AcFormer),这是一种新颖的视觉语言连接器,旨在利用从这些视觉锚点获得的丰富先验知识,在预训练期间引导信息的聚合。
- 其它亮点本文通过广泛的实验表明,与基线相比,所提出的方法将计算成本降低了近三分之二,同时表现出更好的性能。实验使用了多个数据集,作者还开源了代码。
- 最近的相关研究包括:《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》、《UNITER: Universal Image-TExt Representation Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢