Next-Embedding Prediction Makes Strong Vision Learners

2025年12月18日
  • 简介
    受自然语言领域中生成式预训练成功的启发,我们探讨相同的原则是否也能培养出强大的自监督视觉学习模型。与以往训练模型输出可用于下游任务的特征不同,我们训练模型直接生成可用于执行预测任务的嵌入表示。本研究探索了从“学习表征”到“学习模型”的这一范式转变。具体而言,模型通过因果掩码和梯度停止机制,学习基于过去的图像块嵌入来预测未来的嵌入,我们将这一方法称为“下一项嵌入预测自回归”(Next-Embedding Predictive Autoregression, NEPA)。我们证明,仅以预测下一个嵌入为唯一学习目标、在ImageNet-1k上预训练的一个简单Transformer模型即可取得良好效果——整个过程无需像素重建、离散化标记、对比损失或任务特定的头部结构。该方法保持了架构上的简洁性与可扩展性,无需引入额外的设计复杂度。NEPA在多种任务上均表现出色:使用ViT-B和ViT-L主干网络在ImageNet-1K上微调后,分别达到83.8%和85.3%的top-1准确率,并能有效迁移到ADE20K数据集上的语义分割任务中。我们认为,基于嵌入的生成式预训练为视觉自监督学习提供了一种简洁、可扩展且可能适用于多种模态的替代方案。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决视觉领域的自监督学习问题,探索是否可以像自然语言处理中的生成式预训练一样,通过生成式方法在视觉任务中实现强大的表征学习。传统方法依赖像素重建、对比学习或离散token建模,而本文验证了一种更简洁、直接基于嵌入预测的范式是否有效。这是一个相对较新的方向,尤其是在完全摒弃像素空间重建和对比机制的前提下。
  • 关键思路
    提出Next-Embedding Predictive Autoregression(NEPA),即让模型直接预测图像块(patch)的未来嵌入向量,而不是重建像素或学习可迁移特征表示。模型使用因果掩码和梯度截断,以自回归方式在嵌入空间进行预测。关键创新在于从‘学习表征’转向‘学习模型’——模型本身通过预测嵌入来隐式学习视觉结构,无需额外设计复杂的辅助目标。
  • 其它亮点
    实验设计简洁且有效:仅在ImageNet-1k上预训练一个标准Transformer(ViT-B/L),以纯自回归嵌入预测为目标,无微调以外的下游适配。在ImageNet分类上达到83.8%和85.3% top-1精度,迁移至ADE20K语义分割也表现优异。未使用像素重建、对比损失、离散token或任务头,架构保持简单可扩展。代码已开源,为多模态统一建模范式提供了新思路,值得进一步探索其在视频、音频等序列化嵌入预测中的应用。
  • 相关研究
    1. Masked Autoencoders Are Scalable Vision Learners 2. BEiT: Bert Pre-Training of Image Transformers 3. Data2Vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 4. Self-conditioned Embedding Prediction for End-to-end Unsupervised Representation Learning 5. iBOT: Image BERT Pre-Training with Online Tokenizer
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问