Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling

向作者提问

NEW

简介

标准的离散扩散模型将所有未观测状态一视同仁，将其映射为一个吸收性的[MASK]标记。这种做法导致出现“信息空洞”，使得在去噪步骤之间，本可从非掩码标记中推断出的语义信息丢失。我们提出了连续增强离散扩散（CADD）框架，该框架通过在连续潜在空间中引入配对的扩散过程，来扩展离散状态空间。这种方法生成了具有层次性、逐步退化的状态，其中被掩码的标记由虽含噪声但富有信息量的潜在向量表示，而非坍缩为“信息空洞”。在每一步反向去噪过程中，CADD可以利用连续潜在向量作为语义提示，以指导离散去噪过程。该设计简洁，并且与现有的离散扩散训练方法兼容。在采样阶段，通过对连续潜在向量的强度和估计器进行选择与调节，可以在模式覆盖（生成多样化的输出）和模式聚焦（生成上下文精确的输出）行为之间实现可控的权衡。实验表明，无论是在文本生成、图像合成还是代码建模任务中，CADD相较于基于掩码的扩散模型均提升了生成质量，在定性和定量指标上均持续优于强大的离散基线方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

标准离散扩散模型将所有未观测状态统一映射为一个吸收性的[MASK]标记，导致在去噪过程中丢失了可以从非掩码token推断出的语义信息，形成'信息空洞'问题。这限制了生成质量，尤其是在文本、图像和代码等复杂结构数据的生成任务中。该问题在离散扩散领域尚未被充分解决，具有较强的研究价值。
关键思路

提出Continuously Augmented Discrete Diffusion（CADD）框架，通过在连续潜在空间中引入配对扩散过程来增强离散状态空间。未被掩码的token不再被简单替换为无信息的[MASK]，而是由带有噪声但保留语义的连续向量表示，从而在去噪过程中提供渐进式语义提示。反向过程中利用这些连续潜变量作为引导信号，实现更精准的离散重建。该方法兼容现有离散扩散训练流程，且在采样时可通过调节潜变量估计器控制生成多样性与精确性之间的权衡。
其它亮点

实验设计涵盖文本生成、图像合成和代码建模三大任务，在多个基准数据集上验证了CADD相对于强基线模型的性能提升，包括更高的生成质量和更好的定量指标（如FID、BLEU、独特性等）。作者强调该方法无需改变训练架构，易于集成，并展示了模式覆盖与模式聚焦行为间的可控切换。论文虽未明确提及开源代码，但其模块化设计为后续研究提供了清晰路径，尤其值得深入探索连续-离散协同扩散机制及其在更多模态上的扩展应用。
相关研究

1. MaskGIT: Masked Generative Image Transformer for Image Inpainting and Generation 2. DisCo: Discrete Denoising diffusion for Sequence Modeling 3. Latent Diffusion Models 4. DALL-E 2 and Imagen: Scaling Autoregressive and Diffusion Models for Text-to-Image Synthesis 5. ARDM: Auto-Regressive Diffusion Models for Discrete Sequences

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问