Simplified and Generalized Masked Diffusion for Discrete Data

2024年06月06日
  • 简介
    遮蔽扩散(或吸收扩散)作为离散数据生成建模的自回归模型替代方案正在积极探索。然而,这一领域的现有研究受到了模型构建过于复杂和不同视角之间关系不清等问题的限制,导致参数化、训练目标和临时调整等方面存在不足。在这项工作中,我们旨在提供一个简单而通用的框架,以释放遮蔽扩散模型的全部潜力。我们展示了遮蔽扩散模型的连续时间变分目标是交叉熵损失的简单加权积分。我们的框架还支持使用状态依赖掩码计划训练广义遮蔽扩散模型。通过困惑度进行评估,我们在OpenWebText上训练的模型超越了先前的扩散语言模型,达到了GPT-2规模,并在5个零样本语言建模任务中表现出优异的性能。此外,我们的模型在像素级图像建模方面远远优于以前的离散扩散模型,实现了每维2.78(CIFAR-10)和3.42(ImageNet 64×64)比特,这些比特与相似大小的自回归模型相当或更好。
  • 图表
  • 解决问题
    论文旨在提供一个简单且通用的框架,以解决掩蔽扩散模型的复杂模型公式和不同视角之间不清晰的关系所带来的问题,从而发挥掩蔽扩散模型的全部潜力。
  • 关键思路
    论文提出了一个简单的框架,揭示了掩蔽扩散模型的连续时间变分目标是交叉熵损失的简单加权积分,同时还支持训练具有状态依赖掩蔽计划的广义掩蔽扩散模型。
  • 其它亮点
    论文在OpenWebText数据集上训练的模型在困惑度上超过了先前的扩散语言模型,并在5个零-shot语言建模任务中展现了优异的表现。此外,论文的模型在像素级图像建模方面远远优于以前的离散扩散模型,在CIFAR-10和ImageNet 64x64数据集上实现了比类似大小的自回归模型更好的2.78和3.42比特/维度。
  • 相关研究
    与此相关的研究包括《PixelCNN++: Improving the PixelCNN with Discretized Logistic Mixture Likelihood and Other Modifications》和《Glow: Generative Flow with Invertible 1x1 Convolutions》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论