Back to Basics: Let Denoising Generative Models Denoise

2025年11月17日
  • 简介
    如今的去噪扩散模型并不以传统意义上的“去噪”方式进行工作,也就是说,它们并不会直接预测干净的图像。相反,神经网络预测的是噪声或含噪的数据。本文指出,预测干净数据与预测含噪数据在本质上是不同的。根据流形假设,自然数据应当位于一个低维流形上,而含噪数据则不然。基于这一假设,我们主张采用直接预测干净数据的模型,这使得看似容量不足的网络也能在非常高维的空间中有效运行。我们证明了仅使用像素作为输入的简单大尺寸图像块Transformer即可成为强大的生成模型:无需使用分词器(tokenizer)、无需预训练、也无需额外的损失函数。我们的方法在概念上无非就是“**纯图像Transformer**”,即我们所称的 **JiT**(Just image Transformers)。我们在ImageNet上以256和512分辨率、使用16和32的大图像块尺寸进行实验,取得了具有竞争力的结果——而在这些设置下,预测高维含噪量的方法可能会彻底失败。通过让网络回归到流形的基本原理,我们的研究回归本质,致力于在原始自然数据上建立一种自成一体的、基于Transformer的扩散建模范式。
  • 作者讲解·2
  • 图表
  • 解决问题
    当前的去噪扩散模型并不直接预测干净图像,而是预测噪声或加噪量。由于自然数据应位于低维流形上,而噪声量不在该流形上,这种做法可能导致在高维空间中建模效率低下。论文试图验证:直接预测干净数据是否比预测噪声更符合流形假设,并能提升生成模型在高维空间中的表现,尤其是在大patch和高分辨率情况下。这是一个被忽视但重要的基础问题。
  • 关键思路
    提出一种回归本质的方法——直接让Transformer网络预测干净图像(即‘Just image Transformers’, JiT),而非传统扩散模型中预测噪声。基于流形假设,干净数据位于低维流形上,而噪声不是,因此直接映射回干净数据空间更合理。该方法无需 tokenizer、预训练或额外损失函数,仅用像素级大patch Transformer进行端到端生成。
  • 其它亮点
    使用16x16和32x32的大patch大小,在ImageNet 256x256和512x512分辨率上取得了具有竞争力的结果;在高维设置下,传统预测噪声的方法可能崩溃,而JiT仍有效。实验设计简洁,仅依赖标准扩散框架下的重建目标。未提及开源代码,但强调模型简单且自包含。值得深入研究的方向包括进一步探索大patch机制、纯像素Transformer的缩放规律,以及与其他架构(如DiT)的对比分析。
  • 相关研究
    1. Scalable Diffusion Models with Transformers (DiT) 2. PatchGAN: Towards the Limits of Patch-based Image Discriminators 3. Masked Autoencoders Are Scalable Vision Learners (MAE) 4. Score-Based Generative Modeling through Stochastic Differential Equations 5. Improved Denoising Diffusion Probabilistic Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问