SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers

简介

我们介绍了Sana，这是一个文本到图像的框架，可以高效地生成高达4096×4096分辨率的图像。Sana可以在非常快的速度下合成高分辨率、高质量的图像，并具有强大的文本-图像对齐能力，可在笔记本电脑GPU上部署。其核心设计包括：（1）深度压缩自编码器：与传统的只能将图像压缩8倍的自编码器不同，我们训练了一个可以将图像压缩32倍的自编码器，有效地减少了潜在标记的数量。（2）线性DiT：我们用线性注意力替换了DiT中的所有基础注意力，这在高分辨率下更加高效，而不会牺牲质量。（3）仅解码器的文本编码器：我们用现代的仅解码器小型LLM替换了T5作为文本编码器，并设计了复杂的人类指令以进行上下文学习，以增强图像-文本对齐。（4）高效的训练和采样：我们提出了Flow-DPM-Solver来减少采样步骤，并采用高效的标题标注和选择来加速收敛。结果，Sana-0.6B在测量吞吐量方面与现代巨型扩散模型（如Flux-12B）非常具有竞争力，体积小20倍，速度快100多倍。此外，Sana-0.6B可以部署在16GB笔记本电脑GPU上，只需不到1秒即可生成1024×1024分辨率的图像。Sana可以以低成本实现内容创作。代码和模型将公开发布。
作者讲解·2
- 讲解视频
- 相关报道(2)
解决问题

论文旨在介绍一种可以高效生成高分辨率图像的文本到图像框架，解决了图像合成和文本对齐的问题。
关键思路

该文本到图像框架的核心设计包括：使用深度压缩自编码器将图像压缩32倍，使用线性DiT代替传统的注意力机制，使用仅解码器的小型LLM作为文本编码器，并使用上下文学习增强图像和文本的对齐，同时提出了Flow-DPM-Solver以加速收敛。
其它亮点

该框架可以生成高分辨率、高质量的图像，与现代巨型扩散模型相比，体积更小，吞吐量更高，可以在笔记本GPU上部署，生成1024x1024分辨率的图像不到1秒钟。作者将代码和模型公开发布。
相关研究

最近在这个领域中，还有一些相关研究，如BigGAN、StyleGAN、CLIP等。

SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers

提问交流

提问交流