- 简介离散扩散模型与吸收过程在语言建模中表现出良好的前景。需要估计的关键量是两个过渡状态的边缘概率之比,称为具体得分。本文揭示了吸收扩散中具体得分可以表示为干净数据的条件概率乘以时间相关标量的解析形式。在此基础上,我们提出了重新参数化的吸收离散扩散(RADD),这是一个专门描述时间独立条件概率的扩散模型。除了它的简单性,RADD 可以通过在采样间隔内保留时间独立网络的输出来减少函数评估的数量(NFEs)。实验上,RADD 比最强基线快3.5倍,同时始终取得比最强基线更好的性能。基于具体得分的新分解,我们进一步证明了一个令人惊讶的结果,即吸收扩散的精确似然可以重写为一个简单的形式(称为去噪交叉熵),然后可以通过蒙特卡罗方法高效地估计。该方法也适用于具体得分的原始参数化。它在5个GPT-2规模的零样本语言建模基准测试中(以困惑度衡量)显著推进了离散扩散的最新技术水平。
- 图表
- 解决问题论文旨在解决语言建模中的具体分数估计问题,提出了一种新的离散扩散模型——RADD,并研究了该模型的性能和效率。
- 关键思路论文提出了一种新的离散扩散模型RADD,该模型可以通过缓存无噪声样本的输出来降低函数计算次数,从而提高效率。
- 其它亮点论文的实验结果表明,RADD模型在GPT-2规模的5个零样本语言建模基准测试中表现出色,且比最强基线快3.5倍。此外,论文还发现具体分数可以表示为干净数据的条件概率乘以时间相关标量的解析形式。论文提出的新方法还可以将吸收扩散的确切似然重写为简单的形式,并通过蒙特卡罗方法进行高效估计。
- 最近在这个领域中,还有一些相关研究,如《Diffusion Models Beat GANs on Image Synthesis》和《Diffusion Probabilistic Models for Image Generation》等。
沙发等你来抢
去评论
评论
沙发等你来抢