- 简介本文提出了一种创新的扩散模型增强方法,即将新型多分辨率网络和时间相关层归一化相结合。扩散模型因其在高保真度图像生成方面的有效性而备受关注。尽管传统方法依赖于卷积U-Net架构,但最近基于Transformer的设计表现出更好的性能和可扩展性。然而,Transformer架构通过“分块”(即令输入数据成为标记)来进行自我注意力操作,面临着视觉保真度和计算复杂性之间的权衡,因为自我注意力操作与标记长度的平方成正比。尽管更大的分块尺寸能够提高注意力计算效率,但它们难以捕捉细粒度的视觉细节,导致图像失真。为了解决这一挑战,我们提出了将多分辨率网络(DiMR)与扩散模型相结合的方法,DiMR是一种跨多个分辨率细化特征的框架,逐渐从低分辨率到高分辨率增强细节。此外,我们还引入了时间相关层归一化(TD-LN),这是一种参数高效的方法,将时间相关参数纳入层归一化中以注入时间信息并实现更好的性能。我们的方法在分类条件下的ImageNet生成基准测试中表现出了其功效,其中DiMR-XL变体优于以前的扩散模型,创造了ImageNet 256 x 256和ImageNet 512 x 512的新的FID得分最优值为1.70和2.89。项目页面:https://qihao067.github.io/projects/DiMR。
-
- 图表
- 解决问题论文旨在增强扩散模型,通过整合新型多分辨率网络和时间相关的层归一化来解决Transformer架构中的视觉保真度和计算复杂度之间的权衡问题。
- 关键思路将扩散模型与多分辨率网络(DiMR)和时间相关的层归一化(TD-LN)相结合,以提高视觉细节和计算效率。
- 其它亮点实验结果表明,在类别条件下的ImageNet生成基准测试中,DiMR-XL变体优于先前的扩散模型,创下了ImageNet 256 x 256和ImageNet 512 x 512的新的FID得分记录。作者提供了项目页面和开源代码。
- 最近的相关研究包括使用Transformer架构进行图像生成的工作,以及使用扩散模型进行高保真图像生成的工作。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流