Next-Embedding Prediction Makes Strong Vision Learners

向作者提问

NEW

简介

受自然语言领域中生成式预训练成功的启发，我们探讨相同的原则是否也能培养出强大的自监督视觉学习模型。与以往训练模型输出可用于下游任务的特征不同，我们训练模型直接生成可用于执行预测任务的嵌入表示。本研究探索了从“学习表征”到“学习模型”的这一范式转变。具体而言，模型通过因果掩码和梯度停止机制，学习基于过去的图像块嵌入来预测未来的嵌入，我们将这一方法称为“下一项嵌入预测自回归”（Next-Embedding Predictive Autoregression, NEPA）。我们证明，仅以预测下一个嵌入为唯一学习目标、在ImageNet-1k上预训练的一个简单Transformer模型即可取得良好效果——整个过程无需像素重建、离散化标记、对比损失或任务特定的头部结构。该方法保持了架构上的简洁性与可扩展性，无需引入额外的设计复杂度。NEPA在多种任务上均表现出色：使用ViT-B和ViT-L主干网络在ImageNet-1K上微调后，分别达到83.8%和85.3%的top-1准确率，并能有效迁移到ADE20K数据集上的语义分割任务中。我们认为，基于嵌入的生成式预训练为视觉自监督学习提供了一种简洁、可扩展且可能适用于多种模态的替代方案。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决视觉领域的自监督学习问题，探索是否可以像自然语言处理中的生成式预训练一样，通过生成式方法在视觉任务中实现强大的表征学习。传统方法依赖像素重建、对比学习或离散token建模，而本文验证了一种更简洁、直接基于嵌入预测的范式是否有效。这是一个相对较新的方向，尤其是在完全摒弃像素空间重建和对比机制的前提下。
关键思路

提出Next-Embedding Predictive Autoregression（NEPA），即让模型直接预测图像块（patch）的未来嵌入向量，而不是重建像素或学习可迁移特征表示。模型使用因果掩码和梯度截断，以自回归方式在嵌入空间进行预测。关键创新在于从‘学习表征’转向‘学习模型’——模型本身通过预测嵌入来隐式学习视觉结构，无需额外设计复杂的辅助目标。
其它亮点

实验设计简洁且有效：仅在ImageNet-1k上预训练一个标准Transformer（ViT-B/L），以纯自回归嵌入预测为目标，无微调以外的下游适配。在ImageNet分类上达到83.8%和85.3% top-1精度，迁移至ADE20K语义分割也表现优异。未使用像素重建、对比损失、离散token或任务头，架构保持简单可扩展。代码已开源，为多模态统一建模范式提供了新思路，值得进一步探索其在视频、音频等序列化嵌入预测中的应用。
相关研究

1. Masked Autoencoders Are Scalable Vision Learners 2. BEiT: Bert Pre-Training of Image Transformers 3. Data2Vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 4. Self-conditioned Embedding Prediction for End-to-end Unsupervised Representation Learning 5. iBOT: Image BERT Pre-Training with Online Tokenizer

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问