- 简介多模态编码器(如CLIP)在零样本图像分类和跨模态检索等任务中表现出色。然而,它们需要大量的训练数据。我们提出了规范相似性分析(CSA),使用两个单模态编码器利用有限数据复制多模态编码器。CSA将单模态特征映射到多模态空间,使用新的相似度分数仅保留多模态信息。CSA仅涉及单模态编码器的推理和立方复杂度矩阵分解,消除了对大量基于GPU的模型训练的需求。实验表明,CSA在ImageNet分类和误导性新闻标题检测方面优于CLIP,同时需要的多模态数据对数少了$300,000\times$,单模态数据对数少了$6\times$。CSA超越了将单模态特征映射到多模态特征的最先进方法。我们还展示了CSA在图像和文本以外的模态上的能力,为未来具有有限配对多模态数据但丰富的未配对单模态数据的模态配对铺平了道路,例如激光雷达和文本。
- 图表
- 解决问题本文旨在解决使用少量数据进行多模态编码的问题。相比于当前流行的多模态编码器,本文提出的方案只需要少量数据,且无需进行大量的模型训练。
- 关键思路本文提出了一种新的方案——规范相似性分析(Canonical Similarity Analysis,CSA),使用两个单模态编码器来复制多模态编码器。CSA将单模态特征映射到多模态空间,并使用新的相似性分数仅保留多模态信息。CSA仅涉及单模态编码器的推断和立方复杂度矩阵分解,无需进行大量的GPU模型训练。
- 其它亮点本文的实验结果表明,CSA在ImageNet分类和误导性新闻标题检测方面优于CLIP,且所需的多模态数据对仅为CLIP的$300,000$倍,所需的单模态数据仅为CLIP的$6$倍。本文还展示了CSA在图像和文本以外模态的能力,为未来具有有限配对多模态数据但有丰富的未配对单模态数据的模态配对铺平了道路。
- 近期在这个领域中,还有一些相关的研究,如CLIP和ViLBERT等。
沙发等你来抢
去评论
评论
沙发等你来抢