来自今天的爱可可AI前沿推介

[CV] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

M Assran, Q Duval, I Misra, P Bojanowski, P Vincent, M Rabbat, Y LeCun, N Ballas
[Meta AI]

基于联合嵌入预测架构的图像自监督学习

要点:

  1. 提出基于图像的联合嵌入预测架构(I-JEPA),一种从图像中自监督学习的非生成式方法;
  2. 用掩码策略来预测图像中的多个目标块,用足够大规模、以及空间分布充分的上下文块;
  3. 当与视觉 Transformer 相结合时,I-JEPA 在一系列任务中的可扩展性和强大的下游性能得到了实证演示。

一句话总结:
I-JEPA 是一种非生成式方法,用于从图像进行自监督学习,采用掩码策略预测同一图像中多个目标块的表示,以高可扩展性和高效率在广泛的任务中实现了强大的下游性能。

摘要:
本文展示了一种在不依赖手工制作的数据增强的情况下学习高度语义化图像表示的方法。提出了基于图像的联合嵌入预测架构(I-JEPA),一种从图像自监督学习的非生成式方法。I-JEPA 背后的想法很简单:从单个上下文块中预测同一图像中多个目标块的表示。指导 I-JEPA 产生语义表示的核心设计选择是掩码策略;最重要的是:(a) 预测图像中的多个目标块,(b) 足够大规模的目标块采样(占整个图像的15%-20%),以及 (c) 用信息量充足(空间分布足够分散)的上下文块。从经验上讲,当与视觉 Transformer 相结合时,I-JEPA 具有高度可扩展性。例如,在38小时内用32个 A100 GPU 在 ImageNet 上训练 ViT-Huge/16,以便在需要不同抽象级别的广泛任务中实现强大的下游性能,从线性分类到目标计数和深度预测。

This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-supervised learning from images. The idea behind I-JEPA is simple: from a single context block, predict the representations of various target blocks in the same image. A core design choice to guide I-JEPA towards producing semantic representations is the masking strategy; specifically, it is crucial to (a) predict several target blocks in the image, (b) sample target blocks with sufficiently large scale (occupying 15%-20% of the image), and (c) use a sufficiently informative (spatially distributed) context block. Empirically, when combined with Vision Transformers, we find I-JEPA to be highly scalable. For instance, we train a ViT-Huge/16 on ImageNet using 32 A100 GPUs in under 38 hours to achieve strong downstream performance across a wide range of tasks requiring various levels of abstraction, from linear classification to object counting and depth prediction.

论文链接:https://arxiv.org/abs/2301.08243
图片
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除