TerDiT: Ternary Diffusion Models with Transformers

简介

最近，大规模预训练的文本到图像扩散模型的发展显著提高了高保真图像的生成能力，特别是基于变压器架构的扩散模型（DiTs）的出现。在这些扩散模型中，扩散变压器展示了卓越的图像生成能力，降低了FID分数并提高了可扩展性。然而，部署大规模DiT模型可能会非常昂贵，因为它们具有大量的参数数量。尽管现有的研究探索了扩散模型的高效部署技术，如模型量化，但对于基于DiT的模型仍然缺乏研究。为了解决这个研究空白，本文提出了TerDiT，一种适用于带有变压器的三值扩散模型的量化感知训练（QAT）和高效部署方案。我们专注于DiT网络的三值化，并将模型大小从600M扩展到4.2B。我们的工作为大规模DiT模型的高效部署策略的探索做出了贡献，证明了从头开始训练极低位扩散变压器模型的可行性，同时保持与完全精度模型相比具有竞争力的图像生成能力。代码将在https://github.com/Lucky-Lance/TerDiT上提供。
图表
解决问题

本论文旨在解决大规模预训练文本到图像扩散模型的高昂成本问题，提出了一种基于三值扩散模型和变压器的量化感知训练和高效部署方案。
关键思路

本文提出了TerDiT，一种针对三值扩散模型的量化感知训练和高效部署方案，通过将DiT网络三值化并将模型大小从600M扩展到4.2B，展示了从头开始训练极低位扩散变压器模型的可行性。
其它亮点

本文的亮点在于提出了一种有效的解决大规模DiT模型高成本问题的方法，并通过实验证明了其可行性和有效性。实验使用了开源的代码，展示了与全精度模型相比具有竞争力的图像生成能力。
相关研究

最近的相关研究包括扩散模型的量化部署技术，但很少有研究关注DiT模型的量化部署。

TerDiT: Ternary Diffusion Models with Transformers

评论