DMT-JEPA: Discriminative Masked Targets for Joint-Embedding Predictive Architecture

简介

最近，联合嵌入预测架构（JEPA）在遮蔽策略下从未标记的图像中提取视觉表示方面展现了令人印象深刻的结果。然而，我们揭示了其缺点，尤其是其对局部语义的理解不足。这种不足源于嵌入空间中的遮蔽建模，导致了较少的区分能力，甚至可能导致对关键的局部语义的忽视。为了弥补这一差距，我们引入了DMT-JEPA，这是一种基于JEPA的新型遮蔽建模目标，专门设计用于从相邻信息中生成有区分性的潜在目标。我们的关键思想很简单：我们将一组语义相似的相邻补丁视为遮蔽补丁的目标。具体而言，所提出的DMT-JEPA（a）计算每个遮蔽补丁与其相应的相邻补丁之间的特征相似性，以选择具有语义上有意义的关系的补丁，（b）采用轻量级的交叉注意力头来聚合相邻补丁的特征作为遮蔽目标。因此，DMT-JEPA表现出很强的区分能力，在各种下游任务中都有好处。通过广泛的实验，我们展示了我们在各种视觉基准测试中的有效性，包括ImageNet-1K图像分类、ADE20K语义分割和COCO目标检测任务。代码可在以下网址获得：\url{https://github.com/DMTJEPA/DMTJEPA}。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决JEPA模型在提取视觉表示时对局部语义理解不足的问题，提出了一种新的掩码建模目标DMT-JEPA。
关键思路

DMT-JEPA通过计算掩码补丁与相应邻近补丁之间的特征相似性来选择具有语义相关性的补丁，利用轻量级的交叉注意力头聚合邻近补丁的特征作为掩码目标，从而提高了模型的判别能力。
其它亮点

论文通过实验验证了DMT-JEPA在ImageNet-1K图像分类、ADE20K语义分割和COCO目标检测等多个视觉任务中的有效性。论文提供了开源代码。
相关研究

近期相关研究包括：Joint Embedding of Images and Text with Semantic Attention、Learning to Learn Image Classifiers with Visual Analogy Making等。

DMT-JEPA: Discriminative Masked Targets for Joint-Embedding Predictive Architecture

提问交流

提问交流