- 简介在成功的生成式和自监督表示学习模型的核心,都有一种重建目标,其中包括某种形式的图像损坏。扩散模型通过计划好的高斯损坏过程来实现这种方法,而掩蔽自编码器模型通过遮盖图像的补丁来实现。尽管它们的方法不同,但它们方法学的潜在相似性表明了一种有前途的自编码器,能够同时完成去噪任务。我们提出了一个统一的自监督目标,称为统一掩蔽扩散 (UMD),它将基于补丁和基于噪声的损坏技术结合到单个自编码框架中。具体来说,UMD通过在扩散噪声计划中引入一个额外的无噪声、高遮蔽表示步骤,并利用混合遮蔽和噪声的图像进行后续时间步骤,修改了扩散变压器 (DiT) 的训练过程。通过整合对扩散建模和预测掩蔽补丁令牌有用的特征,UMD在下游生成和表示学习任务中实现了强大的性能,包括线性探测和类条件生成。这是在不需要大量数据增强、多视图或额外编码器的情况下实现的。此外,UMD提高了之前基于扩散的方法的计算效率,减少了总的训练时间。我们在https://github.com/philippe-eecs/small-vision上发布了我们的代码。
- 图表
- 解决问题本论文旨在提出一种统一的自监督学习目标,将基于补丁和基于噪声的图像破坏技术结合在一个自动编码器框架中,以解决去噪任务。
- 关键思路论文提出了一种名为UMD的统一掩蔽扩散方法,将基于补丁和基于噪声的破坏技术结合在一起,使得自动编码器可以同时进行去噪和补丁预测任务。
- 其它亮点UMD方法在下游生成和表示学习任务中表现出了很强的性能,包括线性探测和类条件生成。该方法不需要大量的数据增强、多个视角或额外的编码器,并且在总训练时间上提高了计算效率。研究者还在Github上公开了代码。
- 最近的相关研究包括:Diffusion Models、Masked Auto-Encoder Models等。
沙发等你来抢
去评论
评论
沙发等你来抢