Probabilistic Language-Image Pre-Training

简介

视觉-语言模型（VLMs）将对齐的图像-文本对嵌入到一个联合空间中，但通常依赖于确定性的嵌入，假设图像和文本之间存在一对一的对应关系。这简化了现实世界中的关系，而这些关系本质上是多对多的，即一张图像可以有多个描述，反之亦然。我们引入了概率语言-图像预训练（ProLIP），这是首个仅使用概率目标在十亿规模的图像-文本数据集上进行预训练的概率VLM，实现了强大的零样本能力（例如，使用ViT-B/16时，ImageNet零样本准确率为74.6%）。ProLIP通过一个“不确定性标记”高效地估计不确定性，而无需额外的参数。我们还引入了一种新的包含损失，该损失强制图像-文本对之间以及原始输入和掩码输入之间的分布包含关系。实验表明，通过利用不确定性估计，ProLIP在下游任务中表现出色，并符合直观的不确定性概念，例如，较短的文本更不确定，更一般的输入包含更具体的输入。利用文本不确定性，我们在少样本设置下将ImageNet准确率从74.6%提高到75.8%，进一步支持了我们概率方法的实际优势。代码可在 https://github.com/naver-ai/prolip 获取。
图表
解决问题

该论文试图解决现有视觉-语言模型（VLMs）在处理图像和文本对时过于依赖确定性嵌入的问题，这种做法忽略了现实世界中图像与文本之间复杂且多对多的关系。这是一个重要的问题，因为现有的方法可能无法准确捕捉到图像和文本之间的所有潜在关联。
关键思路

论文提出了Probabilistic Language-Image Pre-training (ProLIP)，一种基于概率目标训练的新型视觉-语言模型。ProLIP通过引入“不确定性令牌”来高效估计不确定性，而无需额外参数。此外，论文还提出了一种新的包含损失，用于强制图像-文本对之间的分布包含关系，以及原始输入和掩码输入之间的关系。这些创新使得模型能够更好地处理图像和文本之间的多对多关系。
其它亮点

1. ProLIP是首个在十亿规模图像-文本数据集上仅使用概率目标预训练的模型。 2. 实验表明，ProLIP在零样本任务中表现出色，例如在ImageNet上的零样本准确率达到74.6%。 3. 通过利用不确定性估计，ProLIP在下游任务中表现更佳，并符合直觉上的不确定性概念，如较短的文本更具不确定性，更通用的输入包含更具体的输入。 4. 利用文本不确定性，ProLIP在ImageNet上的准确率从74.6%提高到75.8%（在少样本设置下），进一步证明了其实际优势。 5. 项目代码已开源，可在https://github.com/naver-ai/prolip 获取。
相关研究

近期在这个领域的一些相关研究包括： 1. CLIP: Connecting Text and Images (Radford et al., 2021) - 提出了一种大规模预训练的视觉-语言模型，通过对比学习方法来对齐图像和文本。 2. ALIGN: Efficiently Aligning Text and Images Using Transformers (Jia et al., 2021) - 通过改进的Transformer架构和高效的训练策略来对齐图像和文本。 3. VQ-VAE-2 for Text-to-Image Synthesis (Esser et al., 2021) - 使用分层VQ-VAE模型生成高质量的图像。 4. Flamingo: A Visual Language Model for Multimodal Applications (Alayrac et al., 2022) - 结合视觉和语言模态，用于多模态应用的模型。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论