Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers

2024年06月25日
  • 简介
    最近扩散模型的进展,尤其是从基于UNet的扩散到扩散变换器(DiT)的架构转型趋势,显著提高了图像合成的质量和可扩展性。尽管具有惊人的生成质量,但这些大规模模型的大量计算要求显著阻碍了它们在现实世界场景中的部署。后训练量化(PTQ)通过压缩模型大小和加速预先训练模型的推理,同时消除模型重新训练,提供了一种有前途的解决方案。然而,我们观察到现有的PTQ框架专门为ViT和传统扩散模型设计,容易陷入偏差量化,并导致明显的性能下降。在本文中,我们发现DiT通常在权重和激活方面存在相当大的差异,这很容易超出有限的数值表示范围。为了解决这个问题,我们设计了Q-DiT,它无缝地集成了三种技术:细粒度量化来管理权重和激活的输入通道之间的巨大差异,自动搜索策略来优化量化粒度并减少冗余,以及动态激活量化来捕捉跨时间步骤的激活变化。在ImageNet数据集上的广泛实验表明了所提出的Q-DiT的有效性。具体而言,在ImageNet 256x256上将DiT-XL/2量化为W8A8时,与基线相比,Q-DiT将FID显着降低了1.26。在W4A8设置下,它保持了高保真度的图像生成,仅展示了FID的轻微增加,并为扩散变换器的高效、高质量量化设定了新的基准。代码可在\href{https://github.com/Juanerx/Q-DiT}{https://github.com/Juanerx/Q-DiT}上获得。
  • 图表
  • 解决问题
    本论文旨在解决大规模模型在实际场景中应用时所面临的计算资源限制问题,提出了一种基于Post-training Quantization(PTQ)的解决方案。
  • 关键思路
    论文提出了一种Q-DiT的方法,通过fine-grained quantization、自动搜索策略以及dynamic activation quantization三种技术的结合,实现了对Diffusion Transformer模型的高效量化,从而在保证模型性能的同时,降低了模型的存储和计算成本。
  • 其它亮点
    论文在ImageNet数据集上进行了实验,证明了Q-DiT方法的有效性。在W8A8的设置下,相比基线模型,Q-DiT在FID上降低了1.26。在W4A8的设置下,Q-DiT在保持高质量图像生成的同时,FID仅略微增加,创造了高效、高质量的Diffusion Transformer量化新纪录。代码已经开源。
  • 相关研究
    近期相关研究包括:《Post-Training Quantization for Transformer-Based Language Models: A Comprehensive Survey》、《Quantizing Transformers for Long-Form Document Understanding》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论