QVD: Post-training Quantization for Video Diffusion Models

简介

最近，视频扩散模型（VDM）因其在生成连贯和逼真视频内容方面的显著进展而受到重视。然而，同时处理多帧特征，加上相当大的模型大小，导致高延迟和广泛的内存消耗，阻碍了它们的广泛应用。后训练量化（PTQ）是一种有效的技术，可减少内存占用并提高计算效率。与图像扩散不同，我们观察到，所有帧特征中集成的时间特征表现出明显的偏斜。此外，我们调查了视频扩散模型中显着的通道间差异和不对称性，导致个别通道量化级别的覆盖率较低，并增加了量化的挑战。为了解决这些问题，我们引入了第一个专为视频扩散模型量身定制的PTQ策略，称为QVD。具体来说，我们提出了高时间可辨别量化（HTDQ）方法，旨在为时间特征设计，保留量化特征的高可辨别性，为所有视频帧提供精确的时间指导。此外，我们提出了分散通道范围集成（SCRI）方法，旨在改善各个通道的量化级别覆盖率。在各种模型、数据集和位宽设置上进行的实验验证了我们的QVD在各种指标方面的有效性。特别是，在W8A8上实现了近乎无损的性能退化，在FVD方面优于当前方法205.12。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在解决视频扩散模型（VDMs）在处理多帧特征时存在的高延迟和大内存消耗的问题，提出了一种基于后训练量化（PTQ）的解决方案。
关键思路

该论文提出了一种针对视频扩散模型的PTQ策略，称为QVD。具体包括针对时间特征的高时间可辨识度量化（HTDQ）方法和旨在提高通道覆盖率的分散通道范围集成（SCRI）方法。
其它亮点

论文的实验验证了QVD在各种模型、数据集和位宽设置下的有效性。该论文的亮点包括提出了针对视频扩散模型的PTQ策略，提出了HTDQ和SCRI两种方法，实现了接近无损的性能下降。
相关研究

近期在这个领域中，还有一些相关的研究。例如，2021年的一篇论文《Towards Efficient Video Diffusion Models via Pre-Training and Quantization》也关注了视频扩散模型的效率问题，并提出了一种基于预训练和量化的解决方案。

QVD: Post-training Quantization for Video Diffusion Models

提问交流

提问交流