Learning Generation Orders for Masked Discrete Diffusion Models via Variational Inference

向作者提问

NEW

简介

掩码离散扩散模型（MDM）是一种颇具前景的新型生成建模方法，其优势在于支持并行化令牌生成，因而相比自回归模型具有更高的计算效率。然而，如何在并行生成能力与样本质量之间取得最优平衡，仍是一个尚未解决的开放性问题。目前主流方法主要依赖固定、启发式的并行采样策略来应对这一挑战。尽管近期已出现若干基于学习的解决方案，但从变分推断视角对该问题进行建模的研究依然十分匮乏。本文提出一种面向MDM的变分推断框架，用于学习最优的并行生成顺序。作为该方法的重要组成部分，我们设计了一种针对生成顺序近似后验分布的参数化形式，使其既能支持并行化操作，又能在训练过程中实现高效采样。基于该方法，我们在GSM8K数据集上开展了初步实验：在高度并行化的生成设定下，本方法的表现可与各类启发式采样策略相媲美。例如，在平均仅需4步生成即可完成推理的情况下，本方法达到了33.1%的准确率，而现有主流对比方法在相同步数下的准确率仅为23.7%–29.0%。我们相信，后续更深入的实验验证与方法分析，将为理解MDM中的并行生成问题提供宝贵洞见。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在掩码离散扩散模型（MDMs）中学习最优的并行生成顺序，以在高度并行（极少数步数）条件下兼顾生成效率与样本质量——这是一个尚未被充分建模的新问题，尤其缺乏从变分推断视角的系统性建模。
关键思路

首次将并行生成顺序的学习形式化为变分推理问题：引入可学习的、支持并行采样的近似后验分布（参数化为顺序-感知的Gumbel-top-k策略），联合优化生成目标与顺序先验，使模型能自适应地发现高质量、低步数的填充路径。
其它亮点

在GSM8K数学推理数据集上验证：仅需平均4步即达33.1%准确率，显著超越同类启发式方法（23.7–29.0%）；方法天然支持训练时并行梯度更新与推理时硬性步数约束；暂未开源代码，但实验设计清晰区分了步数受限下的公平比较；值得深入的方向包括顺序后验的结构归纳偏置设计、跨任务泛化性及与推理链（CoT）解耦分析。
相关研究

Learning Stepwise Generation Orders for Diffusion Models (ICLR 2024); Masked Autoencoders Are Scalable Vision Learners (MAE, CVPR 2022); Denoising Diffusion Probabilistic Models (DDPM, NeurIPS 2020); Parallel Sampling for Masked Language Modeling (ACL 2023); Variational Diffusion Models (ICML 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问