QVD: Post-training Quantization for Video Diffusion Models

2024年07月16日
  • 简介
    最近,视频扩散模型(VDM)因其在生成连贯和逼真视频内容方面的显著进展而受到重视。然而,同时处理多帧特征,加上相当大的模型大小,导致高延迟和广泛的内存消耗,阻碍了它们的广泛应用。后训练量化(PTQ)是一种有效的技术,可减少内存占用并提高计算效率。与图像扩散不同,我们观察到,所有帧特征中集成的时间特征表现出明显的偏斜。此外,我们调查了视频扩散模型中显着的通道间差异和不对称性,导致个别通道量化级别的覆盖率较低,并增加了量化的挑战。为了解决这些问题,我们引入了第一个专为视频扩散模型量身定制的PTQ策略,称为QVD。具体来说,我们提出了高时间可辨别量化(HTDQ)方法,旨在为时间特征设计,保留量化特征的高可辨别性,为所有视频帧提供精确的时间指导。此外,我们提出了分散通道范围集成(SCRI)方法,旨在改善各个通道的量化级别覆盖率。在各种模型、数据集和位宽设置上进行的实验验证了我们的QVD在各种指标方面的有效性。特别是,在W8A8上实现了近乎无损的性能退化,在FVD方面优于当前方法205.12。
  • 作者讲解·1
  • 图表
  • 解决问题
    本论文旨在解决视频扩散模型(VDMs)在处理多帧特征时存在的高延迟和大内存消耗的问题,提出了一种基于后训练量化(PTQ)的解决方案。
  • 关键思路
    该论文提出了一种针对视频扩散模型的PTQ策略,称为QVD。具体包括针对时间特征的高时间可辨识度量化(HTDQ)方法和旨在提高通道覆盖率的分散通道范围集成(SCRI)方法。
  • 其它亮点
    论文的实验验证了QVD在各种模型、数据集和位宽设置下的有效性。该论文的亮点包括提出了针对视频扩散模型的PTQ策略,提出了HTDQ和SCRI两种方法,实现了接近无损的性能下降。
  • 相关研究
    近期在这个领域中,还有一些相关的研究。例如,2021年的一篇论文《Towards Efficient Video Diffusion Models via Pre-Training and Quantization》也关注了视频扩散模型的效率问题,并提出了一种基于预训练和量化的解决方案。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问