Extreme Video Compression with Pre-trained Diffusion Models

2024年02月14日
  • 简介
    扩散模型在生成高质量图像和视频数据方面取得了显著的成功。最近,它们也被用于高感知质量的图像压缩。本文提出了一种新颖的极端视频压缩方法,利用解码器中基于扩散的生成模型的预测能力。条件扩散模型采用多个神经压缩帧并生成随后的帧。当重建质量低于所需水平时,新帧被编码以重新启动预测。整个视频按顺序编码以实现视觉上令人愉悦的重建,考虑到感知质量度量,如学习的感知图像补丁相似度(LPIPS)和Frechet视频距离(FVD),比特率低至0.02比特/像素(bpp)。实验结果表明,与标准编解码器(如H.264和H.265)相比,所提出的方案在低bpp范围内的有效性。结果展示了利用生成模型利用视频数据中的时间关系的潜力。代码可在以下网址获得:https://github.com/ElesionKyrie/Extreme-Video-Compression-With-Prediction-Using-Pre-trainded-Diffusion-Models-。
  • 图表
  • 解决问题
    本文旨在利用扩散生成模型的预测能力,提出一种极端视频压缩的新方法,以实现在低比特率下视觉上令人满意的重构。
  • 关键思路
    本文提出的条件扩散模型利用多个神经网络压缩帧生成后续帧,当重构质量低于预期水平时,编码新帧以重新启动预测。整个视频按顺序编码,以在0.02bpp的比特率下实现视觉上令人满意的重构,考虑到感知质量度量,如学习的感知图像块相似度(LPIPS)和Frechet视频距离(FVD)。
  • 其它亮点
    本文展示了利用生成模型中的时间关系的潜力,相比低比特率下的标准编解码器,提出的方法在实验中表现出较好的效果。代码已经开源。
  • 相关研究
    最近的相关研究包括:1. 'End-to-End Optimized Image Compression via Learning Pixel Clustering and Blockwise Quantization';2. 'A Novel Video Compression Framework Based on Convolutional Neural Networks';3. 'Learning Convolutional Networks for Content-weighted Image Compression'。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论