Long-CLIP: Unlocking the Long-Text Capability of CLIP

简介

Contrastive Language-Image Pre-training (CLIP) 是零样本分类、文本-图像检索和文本-图像生成的基石，通过对齐图像和文本模态实现。尽管 CLIP 被广泛采用，但其一个显著的限制在于文本输入长度不足。文本仅限于 77 个令牌，实证研究表明实际有效长度甚至不到 20。这限制了 CLIP 处理详细描述的能力，限制了其在图像检索和文本-图像生成方面的应用。为此，我们提出了 Long-CLIP 作为 CLIP 的即插即用替代方案，支持长文本输入，保留甚至超越其零样本泛化能力，并对齐 CLIP 潜在空间，使其能够在下游框架中直接替代 CLIP 而无需进一步适应。然而，实现这一目标并不简单，简单的微调可能会导致 CLIP 性能的显著下降。此外，将文本编码器替换为支持更长上下文的语言模型需要大量数据的预训练，产生了巨大的开销。因此，Long-CLIP 引入了一种有效的微调解决方案，包括两种新策略，旨在保持原有的能力，包括（1）知识保留的位置嵌入伸展和（2）CLIP 特征的主要成分匹配。通过利用仅一百万个额外的长文本-图像对，Long-CLIP 在长标题文本-图像检索和传统文本-图像检索任务（如 COCO 和 Flickr30k）中表现出了比 CLIP 高约 20% 和 6% 的优越性。此外，Long-CLIP 通过即插即用方式替换 CLIP，提供了从详细文本描述生成图像的增强功能。
图表
解决问题

论文试图解决CLIP模型在文本输入长度上的限制问题，从而增强其在图像检索和文本生成等方面的应用能力。
关键思路

论文提出了Long-CLIP模型，通过保留CLIP的零样本泛化能力和对齐CLIP的潜在空间，支持长文本输入，且只需使用额外的100万个长文本-图像对进行微调即可。
其它亮点

Long-CLIP模型的两个关键策略是：1. 保留位置嵌入的知识，并将其拉伸以适应更长的文本输入；2. 进行主成分匹配以保持CLIP特征的原始能力。Long-CLIP在长字幕文本-图像检索和传统文本-图像检索任务中分别比CLIP表现优异约20%和6%。该论文开源了代码和数据集。
相关研究

近期的相关研究包括：《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data》等。

Long-CLIP: Unlocking the Long-Text Capability of CLIP

评论