Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

简介

本文提出了一种创新的扩散模型增强方法，即将新型多分辨率网络和时间相关层归一化相结合。扩散模型因其在高保真度图像生成方面的有效性而备受关注。尽管传统方法依赖于卷积U-Net架构，但最近基于Transformer的设计表现出更好的性能和可扩展性。然而，Transformer架构通过“分块”（即令输入数据成为标记）来进行自我注意力操作，面临着视觉保真度和计算复杂性之间的权衡，因为自我注意力操作与标记长度的平方成正比。尽管更大的分块尺寸能够提高注意力计算效率，但它们难以捕捉细粒度的视觉细节，导致图像失真。为了解决这一挑战，我们提出了将多分辨率网络（DiMR）与扩散模型相结合的方法，DiMR是一种跨多个分辨率细化特征的框架，逐渐从低分辨率到高分辨率增强细节。此外，我们还引入了时间相关层归一化（TD-LN），这是一种参数高效的方法，将时间相关参数纳入层归一化中以注入时间信息并实现更好的性能。我们的方法在分类条件下的ImageNet生成基准测试中表现出了其功效，其中DiMR-XL变体优于以前的扩散模型，创造了ImageNet 256 x 256和ImageNet 512 x 512的新的FID得分最优值为1.70和2.89。项目页面：https://qihao067.github.io/projects/DiMR。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在增强扩散模型，通过整合新型多分辨率网络和时间相关的层归一化来解决Transformer架构中的视觉保真度和计算复杂度之间的权衡问题。
关键思路

将扩散模型与多分辨率网络（DiMR）和时间相关的层归一化（TD-LN）相结合，以提高视觉细节和计算效率。
其它亮点

实验结果表明，在类别条件下的ImageNet生成基准测试中，DiMR-XL变体优于先前的扩散模型，创下了ImageNet 256 x 256和ImageNet 512 x 512的新的FID得分记录。作者提供了项目页面和开源代码。
相关研究

最近的相关研究包括使用Transformer架构进行图像生成的工作，以及使用扩散模型进行高保真图像生成的工作。

Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

提问交流

提问交流