- 简介最近,多模态大语言模型(MLLMs)的最新进展通过将视觉感知能力整合到大型语言模型(LLMs)中,彻底改变了视觉-语言理解领域。这一领域的主流趋势是利用从视觉-语言对比学习(CL)中得出的视觉编码器,展示了在捕捉整体表示方面的专业知识,但在捕捉详细的局部模式方面存在困难。在这项工作中,我们通过结合通过遮蔽图像建模(MIM)获得的高频和详细的视觉表示与由CL捕获的语义丰富的低频表示,专注于增强MLLMs的视觉表示。为了实现这一目标,我们引入了X-Former,这是一个轻量级的变压器模块,旨在通过创新的交互机制利用CL和MIM的互补优势。具体而言,X-Former首先从两个冻结的视觉编码器(即基于CL的CLIP-ViT和基于MIM的MAE-ViT)中引导视觉-语言表示学习和多模态到多模态生成学习。它进一步从一个冻结的LLM中引导视觉到语言的生成学习,以确保LLM能够解释X-Former的视觉特征。为了展示我们方法的有效性,我们评估了它在需要详细视觉理解的任务上的性能。广泛的评估表明,X-Former在涉及GQA数据集中结构和语义类别的视觉推理任务中表现出色。对细粒度视觉感知基准的评估进一步证实了它在视觉理解方面的优越能力。
- 图表
- 解决问题本论文旨在提高MLLMs的视觉表征能力,通过结合CL和MIM的互补优势来实现高频和详细的视觉表征。
- 关键思路X-Former是一个轻量级的Transformer模块,旨在通过创新的交互机制,利用CL和MIM的互补优势来增强MLLMs的视觉表征。
- 其它亮点论文通过评估X-Former在需要详细视觉理解的任务上的表现来展示其有效性。实验结果表明,X-Former在GQA数据集中涉及结构和语义类别的视觉推理任务中表现出色。论文开源了代码。
- 最近的相关研究包括:《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
沙发等你来抢
去评论
评论
沙发等你来抢