视觉语言预训练(vision language pre-training, VLP)旨在通过在大规模的图像-文本对上对模型进行预训练来提高下游视觉和语言任务的表现。本文章将介绍来自ICML2022和CVPR2022的三篇关于VLP的论文。

 

文章概览

1. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

论文地址:https://arxiv.org/pdf/2201.12086.pdf

 

视觉语言预训练提高了许多视觉语言任务的性能。然而,大多数现有的预训练模型或擅长于基于理解的任务或擅长于基于生成的任务。并且性能改进在很大程度上是通过使用从网络上收集的噪声图像文本对扩展数据集实现的。为此,作者提出了BLIP框架,可以灵活地转换视觉语言理解和生成任务,并且充分利用数据,在广泛的视觉语言任务上实现了SOTA的结果,例如在图像和文本检索中top-1 recall平均增长2.7%,图像描述任务性能提高2.8%,视觉问答任务提高了1.6%。

2. Multi-Grained Vision Language Pre-Training:Aligning Texts with Visual Concepts

论文地址:https://arxiv.org/pdf/2111.08276v3.pdf

 

视觉语言预训练中的大多数现有方法依赖于通过对象检测提取的以对象为中心的特征,并在提取的特征和文本之间进行细粒度对齐。这些方法很难学习多个对象之间的关系。为此,作者提出了一种称为X-VLM的新方法,即多粒度视觉语言预训练。学习多粒度对齐的关键是在给定关联文本的图像中定位视觉概念,同时将文本与视觉概念对齐,其中对齐是多粒度的。实验结果表明,X-VLM在许多下游视觉语言任务中有效地利用了学习到的多粒度对齐,并达到SOTA的效果。

3. Vision-Language Pre-Training with Triple Contrastive Learning

论文地址:https://arxiv.org/pdf/2202.10401.pdf

 

视觉语言表示学习很大程度上受益于基于对比损失的图像-文本对齐。这种对齐策略的成功归因于其在图像和匹配文本之间最大化互信息(MI)的能力。然而,简单地执行跨模态对齐(CMA)会忽略每个模态中的数据潜力,这可能会削弱表示能力。在本文中,作者提出了基于跨模态和内模态自我监督的视觉语言预训练三重对比学习(TCL)。除了CMA, TCL引入了一个内模态对比目标,为表征学习提供互补的好处。为了利用来自图像和文本的本地化和结构性信息,TCL进一步最大化了图像/文本的低局部区域与其全局摘要之间的平均MI。实验结果表明,该方法具有较强的竞争力,在图像文本检索和视觉问答等常见的下游视觉语言任务中取得了SOTA性能。

内容中包含的图片若涉及版权问题,请及时与我们联系删除