- 简介对比性语言-图像预训练(CLIP)被广泛用于训练模型,将图像和文本映射到固定大小的向量中,以便在共同嵌入空间中对齐它们。这些模型对于多模态信息检索和相关任务非常重要。然而,与专门的文本模型相比,CLIP模型在仅文本任务中表现通常较差。这为信息检索系统带来了低效。因此,我们提出了一种新颖的多任务对比训练方法,用于训练jina-clip-v1模型,以在文本-图像和文本-文本检索任务上实现最先进的性能。
- 图表
- 解决问题论文旨在解决CLIP模型在纯文本任务中表现不佳的问题,导致信息检索系统需要为文本和多模态任务分别使用嵌入和模型。
- 关键思路通过提出一种新的多任务对比训练方法,来解决CLIP模型在纯文本任务中表现不佳的问题,并使用该方法训练jina-clip-v1模型,从而在文本-图像和文本-文本检索任务上实现最先进的性能。
- 其它亮点论文提出的多任务对比训练方法可以同时提高CLIP模型在文本-图像和文本-文本检索任务中的性能;使用大规模的数据集进行实验,并在多个基准数据集上进行了评估;jina-clip-v1模型在两个任务上都实现了最先进的性能,并且开源了代码。
- 与该论文相关的研究包括:《CLIP: Learning Transferable Visual Models From Natural Language Supervision》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
沙发等你来抢
去评论
评论
沙发等你来抢