Back to Basics: Let Denoising Generative Models Denoise

向作者提问

NEW

简介

如今的去噪扩散模型并不以传统意义上的“去噪”方式进行工作，也就是说，它们并不会直接预测干净的图像。相反，神经网络预测的是噪声或含噪的数据。本文指出，预测干净数据与预测含噪数据在本质上是不同的。根据流形假设，自然数据应当位于一个低维流形上，而含噪数据则不然。基于这一假设，我们主张采用直接预测干净数据的模型，这使得看似容量不足的网络也能在非常高维的空间中有效运行。我们证明了仅使用像素作为输入的简单大尺寸图像块Transformer即可成为强大的生成模型：无需使用分词器（tokenizer）、无需预训练、也无需额外的损失函数。我们的方法在概念上无非就是“**纯图像Transformer**”，即我们所称的 **JiT**（Just image Transformers）。我们在ImageNet上以256和512分辨率、使用16和32的大图像块尺寸进行实验，取得了具有竞争力的结果——而在这些设置下，预测高维含噪量的方法可能会彻底失败。通过让网络回归到流形的基本原理，我们的研究回归本质，致力于在原始自然数据上建立一种自成一体的、基于Transformer的扩散建模范式。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

当前的去噪扩散模型并不直接预测干净图像，而是预测噪声或加噪量。由于自然数据应位于低维流形上，而噪声量不在该流形上，这种做法可能导致在高维空间中建模效率低下。论文试图验证：直接预测干净数据是否比预测噪声更符合流形假设，并能提升生成模型在高维空间中的表现，尤其是在大patch和高分辨率情况下。这是一个被忽视但重要的基础问题。
关键思路

提出一种回归本质的方法——直接让Transformer网络预测干净图像（即‘Just image Transformers’, JiT），而非传统扩散模型中预测噪声。基于流形假设，干净数据位于低维流形上，而噪声不是，因此直接映射回干净数据空间更合理。该方法无需 tokenizer、预训练或额外损失函数，仅用像素级大patch Transformer进行端到端生成。
其它亮点

使用16x16和32x32的大patch大小，在ImageNet 256x256和512x512分辨率上取得了具有竞争力的结果；在高维设置下，传统预测噪声的方法可能崩溃，而JiT仍有效。实验设计简洁，仅依赖标准扩散框架下的重建目标。未提及开源代码，但强调模型简单且自包含。值得深入研究的方向包括进一步探索大patch机制、纯像素Transformer的缩放规律，以及与其他架构（如DiT）的对比分析。
相关研究

1. Scalable Diffusion Models with Transformers (DiT) 2. PatchGAN: Towards the Limits of Patch-based Image Discriminators 3. Masked Autoencoders Are Scalable Vision Learners (MAE) 4. Score-Based Generative Modeling through Stochastic Differential Equations 5. Improved Denoising Diffusion Probabilistic Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问