SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers

2024年10月14日
  • 简介
    我们介绍了Sana,这是一个文本到图像的框架,可以高效地生成高达4096×4096分辨率的图像。Sana可以在非常快的速度下合成高分辨率、高质量的图像,并具有强大的文本-图像对齐能力,可在笔记本电脑GPU上部署。其核心设计包括:(1)深度压缩自编码器:与传统的只能将图像压缩8倍的自编码器不同,我们训练了一个可以将图像压缩32倍的自编码器,有效地减少了潜在标记的数量。(2)线性DiT:我们用线性注意力替换了DiT中的所有基础注意力,这在高分辨率下更加高效,而不会牺牲质量。(3)仅解码器的文本编码器:我们用现代的仅解码器小型LLM替换了T5作为文本编码器,并设计了复杂的人类指令以进行上下文学习,以增强图像-文本对齐。(4)高效的训练和采样:我们提出了Flow-DPM-Solver来减少采样步骤,并采用高效的标题标注和选择来加速收敛。结果,Sana-0.6B在测量吞吐量方面与现代巨型扩散模型(如Flux-12B)非常具有竞争力,体积小20倍,速度快100多倍。此外,Sana-0.6B可以部署在16GB笔记本电脑GPU上,只需不到1秒即可生成1024×1024分辨率的图像。Sana可以以低成本实现内容创作。代码和模型将公开发布。
  • 作者讲解·2
  • 解决问题
    论文旨在介绍一种可以高效生成高分辨率图像的文本到图像框架,解决了图像合成和文本对齐的问题。
  • 关键思路
    该文本到图像框架的核心设计包括:使用深度压缩自编码器将图像压缩32倍,使用线性DiT代替传统的注意力机制,使用仅解码器的小型LLM作为文本编码器,并使用上下文学习增强图像和文本的对齐,同时提出了Flow-DPM-Solver以加速收敛。
  • 其它亮点
    该框架可以生成高分辨率、高质量的图像,与现代巨型扩散模型相比,体积更小,吞吐量更高,可以在笔记本GPU上部署,生成1024x1024分辨率的图像不到1秒钟。作者将代码和模型公开发布。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如BigGAN、StyleGAN、CLIP等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问