- 简介本文探讨了一个统一的表示学习器的可能性,即同时解决生成任务和判别任务的模型。我们将最先进的生成任务方法——扩散模型作为主要候选模型,并通过训练U-Net来预测和去除噪声,从而生成高保真、多样化、新颖的图像。我们发现U-Net的中间特征图是多样化、有区分性的特征表示。我们提出了一种新颖的注意力机制,用于汇集特征图,并进一步利用这种机制作为DifFormer,将来自不同扩散U-Net块和噪声步骤的特征进行变换特征融合。我们还开发了DifFeed,一种专门针对扩散的反馈机制。我们发现,扩散模型比GAN更好,并且通过我们的融合和反馈机制,可以与最先进的无监督图像表示学习方法竞争,包括全监督和半监督的图像分类、细粒度分类的转移、目标检测和分割,以及语义分割。我们的项目网站(https://mgwillia.github.io/diffssl/)和代码(https://github.com/soumik-kanad/diffssl)都是公开可用的。
- 图表
- 解决问题论文旨在探索一种统一的表示学习器,同时解决生成和判别任务,并提高无监督图像表示学习的性能。
- 关键思路论文提出了一种新的方法,将扩散模型(diffusion models)用作统一表示学习器,利用其中间特征映射作为多样化的、有区别的特征表示,并使用自己提出的注意力机制和反馈机制来进一步提高性能。
- 其它亮点论文使用扩散模型解决了多个无监督图像表示学习任务,包括全监督和半监督图像分类、细粒度分类迁移、目标检测和分割、语义分割。论文提出的方法与当前领域的最先进方法相比,具有相当的性能。论文还提供了项目网站和代码。
- 最近的相关研究包括使用GAN和自编码器的无监督表示学习方法,如DCGAN、InfoGAN、VAE等。
沙发等你来抢
去评论
评论
沙发等你来抢