Advances in Diffusion-Based Generative Compression

向作者提问

NEW

简介

得益于其卓越的图像生成能力，扩散模型及相关生成建模方法已在视觉媒体应用中获得广泛应用。尤其值得关注的是，扩散方法催生了数据压缩领域的新范式，使得在极低码率下仍能重建出高度逼真的图像。本文对近期基于扩散模型的生成式有损压缩方法进行了系统性综述，重点聚焦于图像压缩任务。这类方法通常先将原始图像编码为某种嵌入表示（embedding），再在解码过程中借助扩散模型对该嵌入进行迭代式精化，最终生成的重建结果可近似服从真实数据的分布。该嵌入表示形式多样，一般通过辅助熵模型进行编码与传输；而最新研究还进一步探索了直接利用扩散模型本身、通过信道模拟（channel simulation）实现信息传递的可能性。本文以率-失真-感知（rate-distortion-perception, RDP）理论为分析框架，梳理了若干代表性方法，着重阐释了公共随机性（common randomness）所起的关键作用，并揭示了此类方法与反问题（inverse problems）之间的内在联系，同时指出了当前尚待解决的核心挑战。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何利用扩散模型实现高效、感知质量优异的图像有损压缩，尤其在极低比特率下保持重建图像的真实性与多样性，突破传统编解码器在率失真性能上的瓶颈。该问题并非全新，但将扩散模型系统性地建模为率-失真-感知联合优化的生成式压缩框架，是近期兴起的关键范式转变。
关键思路

将图像压缩重构过程重新形式化为条件扩散采样：编码器输出一个紧凑潜变量（embedding），解码端通过预训练扩散模型以该embedding为条件，迭代去噪生成高保真图像；并创新性地将扩散过程本身用于信道模拟（如通过噪声调度隐式编码信息），使熵模型与生成先验深度协同——这超越了传统方法中‘压缩→传输→确定性重建’的范式，转向‘压缩→传输→随机感知一致重建’。
其它亮点

首次系统性地用率-失真-感知（RDP）理论统一分析扩散压缩；强调公共随机性（common randomness）在解码端采样中的关键作用，解释为何相同embedding可生成多样但合理样本；实验覆盖CLIC、Kodak、DIV2K等标准测试集，部分方法（如Diffusion Autoencoders, DALL-E 2 compression variants）已开源代码；值得深入的方向包括：可证明的RDP界推导、硬件友好的快速采样压缩协议、跨模态（如文本引导）压缩控制。
相关研究

Diffusion Autoencoders (ICML 2023); Palette: Image-to-Image Diffusion Models (ACM TOG 2022); Compressive Diffusion (NeurIPS 2023); LDM-Compress: Latent Diffusion for Learned Image Compression (CVPR 2024); Diffusion-based Generative Compression with Perceptual Guidance (ICLR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问