CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data

简介

对比学习已经成为通过对齐图像和文本嵌入来学习有效视觉表示的变革性方法。然而，对比损失中图像和文本对之间的成对相似度计算存在计算挑战。本文提出了一种基于网络规模图像-文本数据的弱监督预训练视觉模型的新方法。所提出的方法将图像-文本数据的预训练重新框架为分类任务。因此，它消除了对比损失中成对相似度计算的需求，与网络规模数据上的对比学习相比，实现了显着的2.7倍训练速度加速。通过广泛的实验，涵盖了包括检测和分割在内的各种视觉任务，我们证明了所提出的方法保持了高质量的表示。我们的源代码以及预训练模型权重和训练配方可在\url{https://github.com/apple/corenet}上获得。
图表
解决问题

论文试图通过弱监督的方式，解决对比学习中图像和文本对之间相似度计算的计算瓶颈问题，从而提高训练速度。
关键思路

论文提出了一种基于图像和文本分类任务的弱监督预训练方法，避免了对比损失中的图像和文本对相似度计算，从而提高了训练速度，同时保持了高质量的表征。
其它亮点

论文在多个视觉任务上进行了实验，包括检测和分割，并展示了所提出方法在保持表征质量的同时，可以显著提高训练速度。论文提供了源代码、预训练模型权重和训练配方。
相关研究

最近的相关研究包括：《Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles》、《Learning Visual Features from Large Weakly Supervised Data》等。

CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data

评论