- 简介得益于其卓越的图像生成能力,扩散模型及相关生成建模方法已在视觉媒体应用中获得广泛应用。尤其值得关注的是,扩散方法催生了数据压缩领域的新范式,使得在极低码率下仍能重建出高度逼真的图像。本文对近期基于扩散模型的生成式有损压缩方法进行了系统性综述,重点聚焦于图像压缩任务。这类方法通常先将原始图像编码为某种嵌入表示(embedding),再在解码过程中借助扩散模型对该嵌入进行迭代式精化,最终生成的重建结果可近似服从真实数据的分布。该嵌入表示形式多样,一般通过辅助熵模型进行编码与传输;而最新研究还进一步探索了直接利用扩散模型本身、通过信道模拟(channel simulation)实现信息传递的可能性。本文以率-失真-感知(rate-distortion-perception, RDP)理论为分析框架,梳理了若干代表性方法,着重阐释了公共随机性(common randomness)所起的关键作用,并揭示了此类方法与反问题(inverse problems)之间的内在联系,同时指出了当前尚待解决的核心挑战。
-
- 图表
- 解决问题如何利用扩散模型实现高效、感知质量优异的图像有损压缩,尤其在极低比特率下保持重建图像的真实性与多样性,突破传统编解码器在率失真性能上的瓶颈。该问题并非全新,但将扩散模型系统性地建模为率-失真-感知联合优化的生成式压缩框架,是近期兴起的关键范式转变。
- 关键思路将图像压缩重构过程重新形式化为条件扩散采样:编码器输出一个紧凑潜变量(embedding),解码端通过预训练扩散模型以该embedding为条件,迭代去噪生成高保真图像;并创新性地将扩散过程本身用于信道模拟(如通过噪声调度隐式编码信息),使熵模型与生成先验深度协同——这超越了传统方法中‘压缩→传输→确定性重建’的范式,转向‘压缩→传输→随机感知一致重建’。
- 其它亮点首次系统性地用率-失真-感知(RDP)理论统一分析扩散压缩;强调公共随机性(common randomness)在解码端采样中的关键作用,解释为何相同embedding可生成多样但合理样本;实验覆盖CLIC、Kodak、DIV2K等标准测试集,部分方法(如Diffusion Autoencoders, DALL-E 2 compression variants)已开源代码;值得深入的方向包括:可证明的RDP界推导、硬件友好的快速采样压缩协议、跨模态(如文本引导)压缩控制。
- Diffusion Autoencoders (ICML 2023); Palette: Image-to-Image Diffusion Models (ACM TOG 2022); Compressive Diffusion (NeurIPS 2023); LDM-Compress: Latent Diffusion for Learned Image Compression (CVPR 2024); Diffusion-based Generative Compression with Perceptual Guidance (ICLR 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流