An analytic theory of creativity in convolutional diffusion models

简介

我们首次提出了关于卷积扩散模型中创造力的解析、可解释且具有预测性的理论。实际上，基于评分的扩散模型能够生成远离其训练数据的高度创意图像。然而，最优评分匹配理论表明，这些模型应该只能产生记忆中的训练样本。为了解释这一理论与实验之间的差异，我们确定了两种简单的归纳偏差：局部性和等变性，它们可以：（1）通过防止最优评分匹配来诱导一种组合式的创造力；（2）导致一个完全解析、彻底机械可解释的等变局部评分（ELS）机器，该机器（3）无需任何训练即可定量预测经过训练的仅使用卷积的扩散模型（如ResNets和UNets）的输出，并且具有高精度（在CIFAR10、FashionMNIST和MNIST上的中位数$r^2$分别为0.90、0.91和0.94）。我们的ELS机器揭示了一种局部一致的拼贴模型，其中扩散模型通过在不同图像位置混合和匹配不同的局部训练集补丁来创建指数级数量的新图像。我们的理论还部分预测了预训练的自注意力增强型UNets的输出（在CIFAR10上的中位数$r^2 \sim 0.75$），揭示了注意力在从局部补丁拼贴中提取语义一致性方面的有趣作用。
图表
解决问题

该论文试图解决卷积扩散模型（如基于分数的扩散模型）在理论上应仅能生成训练数据的记忆示例，但实际上却能生成高度创意、远离训练数据的新图像这一理论与实验之间的差距问题。这是一个新问题，因为它揭示了现有理论与实际表现之间的矛盾，并尝试通过引入新的归纳偏置来解释这种现象。
关键思路

关键思路是引入两个简单的归纳偏置——局部性和等变性，以解释卷积扩散模型如何在不完全依赖于训练数据的情况下生成创意图像。这些偏置导致了一种组合创造力的形式，阻止了最优分数匹配，并提出了一个完全解析且可解释的等变局部分数（ELS）机器。相比当前领域的研究，该论文不仅提供了对扩散模型生成机制的更深层次理解，还展示了无需训练即可预测扩散模型输出的能力。
其它亮点

论文的亮点包括：1) 提出了一个无需训练即可定量预测卷积扩散模型输出的ELS机器；2) 在CIFAR10、FashionMNIST和MNIST数据集上实现了高精度的预测（中位数$r^2$分别为0.90、0.91和0.94）；3) 揭示了扩散模型通过混合和匹配不同位置的局部训练集补丁来创建大量新颖图像的机制；4) 部分预测了带有自注意力机制的UNet的输出，暗示了注意力机制在提高图像语义连贯性方面的作用。此外，论文的工作为未来的研究提供了方向，例如深入探讨注意力机制的作用以及如何进一步提高预测精度。
相关研究

最近在这个领域中，相关的研究包括：1) 基于分数的扩散模型及其应用；2) 卷积神经网络（如ResNet和UNet）在图像生成中的改进；3) 自注意力机制在图像生成中的作用。一些相关研究的论文标题可能包括《Score-Based Generative Modeling through Stochastic Differential Equations》、《Generative Modeling by Estimating Gradients of the Data Distribution》、《Attention is All You Need in Image Generation》等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论