ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation

向作者提问

NEW

简介

Diffusion transformers（DiTs）在视觉生成任务中表现出了非凡的性能，例如根据文本说明生成逼真的图像或视频。然而，用于视频生成的更大模型尺寸和多帧处理导致了更高的计算和内存成本，这给边缘设备的实际部署带来了挑战。后训练量化（PTQ）是一种降低内存成本和计算复杂性的有效方法。当量化扩散变压器时，我们发现应用现有的针对U-Net设计的扩散量化方法在保持质量方面存在挑战。在分析扩散变压器量化的主要挑战后，我们设计了一种改进的量化方案：“ViDiT-Q”（Video and Image Diffusion Transformer Quantization）来解决这些问题。此外，我们确定高度敏感的层和时间步骤会阻碍低位宽量化。为了解决这个问题，我们使用一种新的度量分离混合精度量化方法（ViDiT-Q-MP）来改进ViDiT-Q。我们验证了ViDiT-Q在各种文本到图像和视频模型中的有效性。虽然基准量化方法在W8A8上失败，并在W4A8上产生无法读取的内容，但ViDiT-Q实现了无损W8A8量化。ViDiTQ-MP实现了W4A8，几乎没有视觉质量降低，从而实现了2.5倍的内存优化和1.5倍的延迟加速。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决DiT模型在视觉生成任务中的计算和存储成本问题，特别是在边缘设备上的实际部署问题。
关键思路

论文提出了一种改进的量化方案ViDiT-Q（Video and Image Diffusion Transformer Quantization），并使用一种新的指标分离的混合精度量化方法ViDiT-Q-MP，以解决DiT模型量化时出现的质量下降和敏感层和时间步的问题。
其它亮点

论文通过实验验证了ViDiT-Q在多个文本到图像和视频模型中的有效性，并展示了它在W8A8量化时的无损压缩和在W4A8量化时的可接受视觉质量损失，从而实现了2.5倍的内存优化和1.5倍的延迟加速。论文还提出了ViDiT-Q-MP，这是一种新的混合精度量化方法，可解决敏感层和时间步的问题。
相关研究

最近有一些相关研究，例如《Training Quantized Transformers for Language Understanding》和《Quantifying the Limits of Quantization for Fully Convolutional Networks》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问