学习视觉和语言的多粒度对齐？字节提出新多模态预训练方法 X-VLM：代码已开源！

视觉语言预训练提高了许多视觉语言任务的性能。但是，现有的多数预训练方法依赖目标检测器（object detectors）提取基于物体的视觉特征，以此学习细粒度的视觉和语言对齐，例如物体（object）级别。然而，这种方法存在识别视觉概念有限、图像编码上下文信息丢失和计算效率低下的问题。

在本文中，字节跳动人工智能实验室提出了 X-VLM，以统一的方法学习多粒度的视觉和语言对齐，不依赖目标检测方法且不局限于学习图片级别或物体级别的对齐。该方法在广泛的视觉语言任务上获得了最先进的结果，例如：图像文本检索（image-text retrieval）、视觉问答（VQA）、视觉推理（NLVR）、视觉定位（visual grounding）、图片描述生成（image captioning）。

论文标题：

Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

论文链接：

https://arxiv.org/abs/2111.08276

代码链接：

https://github.com/zengyan-97/X-VLM

X-VLM框架

X-VLM 由一个图像编码器，一个文本编码器，一个跨模态编码器组成。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

学习视觉和语言的多粒度对齐？字节提出新多模态预训练方法 X-VLM：代码已开源！

评论