- 简介在多模态大语言模型(MLLMs)中,我们是否充分发挥了视觉编码器的潜力?最近,MLLMs在多模态理解方面的出色表现引起了学术界和工业界的广泛关注。在当前的MLLM竞赛中,焦点似乎主要集中在语言方面。我们看到更大、更高质量的指导数据集的崛起,以及更大型的LLMs的参与。然而,很少有关注被指向MLLMs所利用的视觉信号,这些信号通常被认为是由一个冻结的视觉编码器提取出的最终高级特征。在本文中,我们介绍了Dense Connector——一种简单、有效、可插拔的视觉语言连接器,通过利用多层视觉特征,显著增强了现有的MLLMs,同时最小化了额外的计算开销。此外,我们的模型仅通过图像训练,在视频理解方面展现了显著的零样本能力。在各种视觉编码器、图像分辨率、训练数据集规模、不同大小的LLMs(2.7B->70B)和多样化的MLLMs架构(如LLaVA和Mini-Gemini)上的实验结果验证了我们方法的多功能性和可扩展性,在19个图像和视频基准测试中取得了最先进的性能。我们希望这项工作将提供有价值的经验,并为未来的MLLM开发提供基本模块。
- 图表
- 解决问题本论文旨在探讨在Multimodal Large Language Models (MLLMs)中,视觉编码器的潜力是否得到充分利用。作者认为当前MLLMs的研究主要集中在语言方面,而对于视觉信号的利用却不够重视。
- 关键思路本文提出了一种称为Dense Connector的视觉-语言连接器,可以利用多层视觉特征,显著提高现有MLLMs的性能,而且额外的计算开销非常小。实验结果表明,该方法在19个图像和视频基准测试中均取得了最先进的性能。
- 其它亮点本文的亮点包括:Dense Connector可以显著提高MLLMs的性能,而且计算开销非常小;该模型仅在图像上进行训练,却展示了在视频理解方面的显著零-shot能力;实验结果表明该方法在不同的视觉编码器、图像分辨率、训练数据集规模、LLMs的大小以及不同架构的MLLMs方面都具有很好的通用性和可扩展性。
- 在相关研究方面,最近的一些相关论文包括:《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》等。
沙发等你来抢
去评论
评论
沙发等你来抢