Flow Matching with General Discrete Paths: A Kinetic-Optimal Perspective

2024年12月04日
  • 简介
    离散空间扩散或流生成模型的设计空间远不如其连续空间对应物那样被充分理解,许多研究仅关注简单的掩码构造。在本工作中,我们旨在采用整体方法构建基于连续时间马尔可夫链的离散生成模型,并首次允许使用任意离散概率路径,或者通俗地说,腐蚀过程。通过优化对称动能的视角,我们提出了可以应用于任何给定概率路径的速度公式,完全解耦了概率和速度,赋予用户根据特定数据领域的专业知识指定任何期望的概率路径的自由。此外,我们发现混合概率路径的特殊构造在离散情况下优化了对称动能。我们在多个模态上实证验证了这一新设计空间的有用性:文本生成、无机材料生成和图像生成。我们发现,即使在文本生成中,使用动能最优的混合路径也能优于掩码构造,同时我们可以在视觉领域利用特定于领域的概率路径构造。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决离散空间扩散或流生成模型的设计空间远不如连续空间对应模型理解得透彻的问题,特别是许多研究只关注简单的掩码构造。这是一个相对较少被探索的问题。
  • 关键思路
    论文通过优化对称动能,提出了一种适用于任意离散概率路径的速度公式,从而完全解耦概率和速度,使用户可以根据特定数据域的专业知识指定任何所需的概率路径。此外,论文发现混合概率路径的特殊构建可以优化离散情况下的对称动能。
  • 其它亮点
    论文在多个模态上验证了这种新的设计空间的有效性,包括文本生成、无机材料生成和图像生成。实验表明,即使在文本生成任务中,使用动能最优的混合路径也能优于传统的掩码构造方法。此外,论文还展示了如何在视觉域中利用特定领域的概率路径构造。论文提供了详细的实验设计和数据集信息,但未提及是否有开源代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如: - 'Discrete Denoising Diffusion Models' (2021) - 'Masked Language Models as Soft Filters for Discrete Diffusion' (2022) - 'Continuous-time Generative Modeling for Discrete Data' (2023) 这些研究主要集中在离散数据上的连续时间生成模型和掩码语言模型的应用,而本论文则进一步扩展了这一领域的设计空间。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问