计算机视觉中,有两种常见的从图像中进行自我监督学习的方法:基于不变性的方法和生成方法。

基于不变性的预训练方法优化编码器,使其产生相似的嵌入,用于同一图像的两个或多个视图,其中图像视图通常使用一组手工数据增强构建,如随机缩放、裁剪和色彩抖动等。这些预训练方法可以产生高语义水平的表示,但它们也引入了强烈的偏差,可能对某些下游任务甚至具有不同数据分布的预训练任务有害。

通常我们不清楚如何将这些偏差推广到不同抽象层次的任务。例如,图像分类和实例分割不需要相同的不变性。此外,将这些特定于图像的增强推广到其他模态(如音频)也不能直接进行。

认知学习理论提出,生物系统中表示学习的驱动机制是内部模型对感官输入响应的适应。这个想法是自监督生成方法的核心——它们移除或打乱输入的部分内容,并学习预测损坏的内容。

尤其是,我们熟知的mask denoising方法就是通过从输入中重建随机掩蔽的补丁来学习表示。该任务比视图不变性方法需要更少的先验知识,并且很容易推广到图像模态之外。然而,由此产生的表示通常处于较低的语义级别,并且在当前的基准和有监督的语义分类任务中表现不佳。因此,需要更复杂的适应机制(例如端到端的微调)才能充分利用这些方法。

本文则探讨了如何改善从图像中进行自监督学习的语义水平,而无需使用通过图像变换编码的额外先验知识。

论文标题

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

论文链接

https://arxiv.org/pdf/2301.08243.pdf

为此,作者引入了一种图像联合嵌入预测架构(I-JEPA)[1]。I-JEPA的思想是在抽象表示空间中预测缺失的信息;例如,给定单个上下文块,预测图像中各个目标块的表示,其中目标表示由学习的目标编码器网络计算。与预测像素/令牌空间的生成方法相比,I-JEPA使用抽象的预测目标,可以消除不必要的像素级细节,从而使模型学习更多的语义特征。另一个核心设计选择是提出的多块掩模策略,具体而言,作者证明了使用信息丰富(空间分布)的上下文块预测图像中的多个目标块(具有足够大的尺度)的重要性。

通过广泛的实证评估,作者证明:

I-JEPA可以学习强大的现成语义表示,而无需使用手工制作的视图增强;I-JEPA在ImageNet-1K线性探测,半监督1%ImageNet-1K和语义转移任务中优于像素重建方法(如MAE);I-JEPA在语义任务上与视图不变预训练方法相比具有竞争力,并且在低级视觉任务(如物体计数和深度预测)上取得更好的性能(第5和6节);通过使用更简单的模型,具有更少的刚性归纳偏见,I-JEPA可以应用于更广泛的任务。此外,I-JEPA还具有可扩展性和效率。

在ImageNet上训练本文ViT-H/14模型大约需要2400个GPU小时,比使用iBOT训练的ViTB/16快50%,比使用MAE训练的ViT-L/16高效140%。在表示空间中预测显着减少了自监督预训练所需的总计算量。

内容中包含的图片若涉及版权问题,请及时与我们联系删除