Be Tangential to Manifold: Discovering Riemannian Metric for Diffusion Models

2025年10月07日
  • 简介
    扩散模型是一类强大的深度生成模型(DGMs),能够生成高保真、多样化的数据内容。然而,与传统的深度生成模型不同,它们缺乏一个显式的、易于处理的低维潜在空间来参数化数据流形。这一缺陷限制了对数据流形的感知分析与操作,例如插值和编辑。现有的针对扩散模型的插值方法通常沿着高密度区域的路径进行,而这些路径未必与数据流形对齐,可能导致感知上不自然的过渡效果。为了充分利用扩散模型所学习到的数据流形结构,我们提出了一种新颖的噪声空间上的黎曼度量,其灵感来自于近期研究发现:得分函数的雅可比矩阵能够捕捉局部数据流形的切空间。该度量促使噪声空间中的测地线保持在所学习到的数据流形内部或与其平行运行。在图像插值任务上的实验表明,与现有的基于密度的方法及简单基线相比,我们提出的度量方法能够生成在感知上更加自然且更忠实于数据流形的过渡结果。
  • 作者讲解
  • 图表
  • 解决问题
    扩散模型虽然在生成高质量、多样化内容方面表现出色,但缺乏显式的、可计算的低维潜在空间,这限制了对数据流形的感知分析与操作(如插值和编辑)。现有插值方法通常沿高密度区域进行,可能偏离真实数据流形,导致视觉上不自然的过渡。这是一个尚未被充分解决的重要问题。
  • 关键思路
    提出一种新的噪声空间上的黎曼度量,该度量基于得分函数雅可比矩阵所揭示的数据流形切空间结构,引导噪声空间中的测地线保持在或平行于学习到的数据流形上,从而实现更符合数据几何结构的插值路径。这一思路将微分几何与扩散模型结合,是利用流形结构进行语义操作的新方向。
  • 其它亮点
    实验在图像插值任务上验证了该方法优于基于密度的和简单线性插值基线,生成更自然、保真度更高的过渡结果;工作强调了扩散模型中隐含流形结构的可利用性;未来可拓展至编辑、控制和表示学习;论文未明确提及代码开源,但使用标准图像数据集(如CIFAR-10、CelebA等)进行验证。
  • 相关研究
    1. Score-Based Generative Modeling through Stochastic Differential Equations 2. Denoising Diffusion Probabilistic Models 3. Analyzing and Improving the Image Quality of StyleGAN 4. Riemannian Geometry of Deep Generative Models 5. Latent Space Oddity: On the Curvature of Deep Generative Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问