MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization

2024年05月28日
  • 简介
    扩散模型已经取得了显著的视觉生成质量。然而,它们的计算和内存成本对于资源受限的移动设备甚至是桌面GPU的应用构成了挑战。最近的少步扩散模型通过减少去噪步骤来减少推理时间。然而,它们的内存消耗仍然过高。后训练量化(PTQ)用低位整数值(INT4/8)替换高位FP表示,这是一种有效和高效的技术来减少内存成本。然而,当应用于少步扩散模型时,现有的量化方法在保持图像质量和文本对齐方面面临挑战。为了解决这个问题,我们提出了一个混合精度量化框架MixDQ。首先,我们设计了专门的BOS感知量化方法,用于高度敏感的文本嵌入量化。然后,我们进行度量解耦敏感性分析,以衡量每个层的敏感性。最后,我们开发了一种基于整数规划的方法来进行位宽分配。尽管现有的量化方法在W8A8上表现不佳,但MixDQ可以在不损失性能的情况下实现W8A8,并在W4A8上实现可忽略的视觉退化。与FP16相比,我们实现了3-4倍的模型大小和内存成本减少,以及1.45倍的延迟加速。
  • 图表
  • 解决问题
    本论文旨在解决在资源受限的设备上应用扩散模型所面临的计算和内存成本过高的问题。具体来说,论文提出了一种混合精度量化框架,以降低模型的内存占用和推理时间。
  • 关键思路
    本文提出了一种混合精度量化框架MixDQ,通过特定的BOS感知量化方法、度量分离敏感性分析和基于整数规划的位宽分配来解决扩散模型量化过程中的挑战,从而实现在W8A8和W4A8的情况下几乎没有视觉损失的压缩模型。
  • 其它亮点
    论文的实验结果表明,MixDQ相比FP16可以将模型大小和内存成本降低3-4倍,并且推理速度提高1.45倍。此外,论文还使用了多个数据集进行实验,并且开源了代码。值得进一步研究的是,MixDQ是否能够应用于其他类型的模型。
  • 相关研究
    与本文相关的研究包括Post Training Quantization (PTQ)和减少去噪步骤的扩散模型等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论