- 简介对比性语言-图像预训练(CLIP)被广泛用于训练模型,将图像和文本映射到固定大小的向量中,以便在共同的嵌入空间中对齐它们。这些模型对于多模态信息检索和相关任务非常重要。然而,与专门的文本模型相比,CLIP模型在纯文本任务中表现通常较差。这为信息检索系统带来了低效率,因为它们需要为纯文本和多模态任务保留单独的嵌入和模型。我们提出了一种新颖的多任务对比训练方法来解决这个问题,并用它来训练jina-clip-v1模型,在文本-图像和文本-文本检索任务上实现了最先进的性能。
- 图表
- 解决问题本论文旨在解决CLIP模型在纯文本任务上表现不如专门的文本模型,导致信息检索系统需要为文本和多模态任务分别使用嵌入和模型的效率低下问题。
- 关键思路论文提出了一种新的多任务对比训练方法,用于训练jina-clip-v1模型,以在文本-图像和文本-文本检索任务上实现最先进的性能。
- 其它亮点论文使用多任务对比训练方法,使得jina-clip-v1模型在文本-图像和文本-文本检索任务上均表现出最先进的性能。实验使用了多个数据集,并且开源了代码。
- 与此相关的研究包括CLIP模型本身以及其他多模态信息检索模型,如ViLBERT和LXMERT。
沙发等你来抢
去评论
评论
沙发等你来抢