Neural Residual Diffusion Models for Deep Scalable Vision Generation

简介

最先进的扩散模型最近采用了越来越深的堆叠网络（例如U-Net或Transformer），以促进视觉生成模型的生成性能，类似于大型语言模型（LLMs）。然而，逐渐更深的堆叠网络会直观地导致数值传播误差，并减少对生成数据的嘈杂预测能力，这阻碍了视觉生成模型的大规模深度可扩展训练。在本文中，我们首先揭示了神经网络能够有效地执行生成去噪的本质在于内在的残差单元具有与输入信号的反扩散过程一致的动态特性，从而支持出色的生成能力。之后，我们站在两种常见类型的深度堆叠网络的肩膀上，提出了一个统一且大规模可扩展的神经残差扩散模型框架（简称Neural-RDM），通过引入一系列符合生成动力学的可学习门控残差参数，对深度生成网络的常见架构进行了简单而有意义的改变。各种生成任务的实验结果表明，所提出的神经残差模型在图像和视频的生成基准测试中获得了最先进的分数。严格的理论证明和广泛的实验也证明了这种简单的门控残差机制与动态建模一致，在提高生成内容的保真度和一致性以及支持大规模可扩展训练方面的优势。代码可在https://github.com/Anonymous/Neural-RDM上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种新的神经网络架构，用于大规模可扩展的视觉生成模型训练，并解决深度堆叠网络可能导致的数值传播误差和降低噪声预测能力的问题。
关键思路

引入可学习的门控残差参数，与生成动态一致，构建统一的神经残差扩散模型框架，支持大规模可扩展训练。
其它亮点

论文在各种生成任务上展示了所提出的神经残差模型在图像和视频生成基准测试中获得了最先进的分数。同时，论文还提供了严格的理论证明和广泛的实验，证明了这种简单的门控残差机制与动态建模一致，可以提高生成内容的保真度和一致性，支持大规模可扩展训练。代码已经开源。
相关研究

U-Net、Transformer等深度堆叠网络在视觉生成模型中得到了广泛应用。

Neural Residual Diffusion Models for Deep Scalable Vision Generation

提问交流

提问交流