Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer

2024年05月07日
  • 简介
    最近几年来,扩散模型在图像生成方面表现出了惊人的性能。然而,由于在生成超高分辨率图像(例如4096 * 4096)时内存呈二次增加,生成图像的分辨率通常被限制在1024 * 1024。在本研究中,我们提出了一种单向块注意机制,可以在推理过程中自适应地调整内存开销并处理全局依赖关系。在此模块的基础上,我们采用了DiT结构进行上采样,并开发了一种无限超分辨率模型,能够上采样各种形状和分辨率的图像。综合实验表明,我们的模型在机器和人类评估中都实现了SOTA性能,能够生成超高分辨率图像。与常用的UNet结构相比,我们的模型在生成4096 * 4096图像时可以节省超过5倍的内存。该项目的URL是https://github.com/THUDM/Inf-DiT。
  • 图表
  • 解决问题
    解决超高分辨率图像生成中内存开销巨大的问题,使得生成的图像分辨率可以达到4096*4096,同时处理全局依赖关系
  • 关键思路
    提出了一种单向块注意力机制,可以在推理过程中自适应地调整内存开销,并处理全局依赖关系。基于这个模块,采用DiT结构进行上采样,开发了一个无限超分辨率模型,可以上采样各种形状和分辨率的图像。
  • 其它亮点
    实验结果表明,该模型在机器和人类评估中都取得了SOTA性能。与常用的UNet结构相比,在生成4096*4096图像时,我们的模型可以节省5倍以上的内存。研究开源于https://github.com/THUDM/Inf-DiT。
  • 相关研究
    与最近的相关研究相比,该论文提出的单向块注意力机制和DiT结构在图像生成中的应用是新颖的。相关研究包括:《A Style-Based Generator Architecture for Generative Adversarial Networks》、《Progressive Growing of GANs for Improved Quality, Stability, and Variation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论