- 简介我们提出了一种最大熵逆强化学习(IRL)方法,用于改善扩散生成模型的样本质量,特别是在生成时间步数较少的情况下。类似于IRL根据从专家演示中学习的奖励函数训练策略,我们使用从训练数据估计的对数概率密度来训练(或微调)扩散模型。由于我们采用基于能量的模型(EBM)来表示对数密度,因此我们的方法归结为扩散模型和EBM的联合训练。我们的IRL公式称为最大熵IRL扩散(DxMI),是一个最小最大问题,当两个模型收敛到数据分布时达到平衡。熵的最大化在DxMI中起着关键作用,促进了扩散模型的探索,并确保EBM的收敛。我们还提出了一种新的强化学习算法Diffusion by Dynamic Programming(DxDP),作为DxMI中的子程序。 DxDP通过将原问题转化为最优控制问题,其中值函数取代时间反向传播,使DxMI中扩散模型更新更加高效。我们的实证研究表明,使用DxMI微调的扩散模型可以在4和10个步骤中生成高质量的样本。此外,DxMI使得无需MCMC训练EBM成为可能,稳定了EBM训练动态,并增强了异常检测性能。
- 图表
- 解决问题本文试图通过最大熵逆强化学习方法来提高扩散生成模型的样本质量,特别是在生成时间步数较少的情况下。
- 关键思路本文提出了一种名为DxMI的IRL公式,通过对训练数据估计的对数概率密度进行训练(或微调)扩散模型,同时训练EBM来表示对数密度。DxMI是一个极小极大问题,通过最大熵化来促进扩散模型的探索并确保EBM的收敛。此外,本文还提出了一种名为DxDP的RL算法,用于使DxMI中的扩散模型更新更加高效。
- 其它亮点本文的实验表明,使用DxMI微调的扩散模型可以在4到10个步骤内生成高质量的样本。此外,DxMI使得EBM的训练更加稳定,增强了异常检测性能。
- 最近的相关研究包括:1.《Diffusion Models Beat GANs on Image Synthesis》;2.《Improved Techniques for Training Score-Based Generative Models》;3.《Maximum Entropy Generators for Energy-Based Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢