- 简介本文提出了一种新的训练范式——扩散强制(Diffusion Forcing),其中通过训练扩散模型去除一组具有独立噪声水平的标记。我们将Diffusion Forcing应用于序列生成建模,通过训练因果下一个标记预测模型来生成一个或多个未来标记,而不完全扩散过去的标记。我们的方法将下一个标记预测模型的优点(例如可变长度生成)与完整序列扩散模型的优点(例如指导采样到理想轨迹的能力)相结合。我们的方法提供了一系列额外的功能,例如(1)连续标记序列的滚动输出,例如视频,其长度超过训练范围,在此范围内基线会发散,以及(2)新的采样和指导方案,这些方案从Diffusion Forcing的可变视野和因果结构中获益,导致决策和规划任务的明显性能提升。除了在实践中的成功,我们的方法还被证明可以优化对真实联合分布中所有子序列的似然的变分下限。项目网站:https://boyuan.space/diffusion-forcing/
- 图表
- 解决问题本文试图通过一种新的训练范式Diffusion Forcing解决序列生成模型中的问题,即如何在保证生成长度可变的同时,引导生成的轨迹。
- 关键思路本文的关键思路是使用Diffusion Forcing训练一个扩展的序列生成模型,同时利用变长生成和引导采样的优势。
- 其它亮点本文的实验结果表明,Diffusion Forcing方法可以用于训练序列生成模型,同时在决策和规划任务中表现出显著的性能优势。此外,本文还证明了该方法可以优化真实联合分布中所有子序列的似然下界,并提供了一个项目网站。
- 在这个领域中,最近的相关研究包括PixelCNN、PixelRNN、WaveNet等。
沙发等你来抢
去评论
评论
沙发等你来抢