All are Worth Words | 当 ViT 遇到扩展模型会出现什么样子的火花？

Vision transformers(ViT) 在包括 low-level 任务在内的各种视觉任务中显示出不错的性能，而 U-Net 在 score-based 的扩散模型中仍然占主导地位。在本文中，对扩散模型中基于 ViT 的架构进行了系统的实证研究。结果表明，向 ViT 添加超长的 skip connections（如 U-Net）对于扩散模型至关重要。新的 ViT 架构与其他改进一起被称为 U-ViT。在几个流行的视觉数据集上，U-ViT 实现了与 SOTA U-Net 具有竞争力的生成结果。

1、简介

随着算法的发展，主干网的革命在（score-based）扩散模型的成功中起着核心作用。一个有代表性的例子是先前工作中使用的 U-Net 架构，它在图像生成任务的扩散模型中仍然占主导地位。一个非常自然的问题是，在此类模型中是否需要依赖 U-Net。

另一方面，Vision transformers(ViT) 已在各种视觉任务（包括 low-level 任务）中显示出前景。与 CNN 相比，ViT 在大规模上更可取，因为它具有可扩展性和效率。尽管基于Score的扩散模型已经大幅扩大，但仍不清楚 ViT 是否适合Score建模。

在本文中对扩散模型中基于 ViT 的架构进行了系统的实证研究。将标准 ViT 修改如下：

增加超长skip连接（如U-Net）；
在输出前增加一个额外的3×3卷积块；
将噪声图像的time embedding、label embedding 和 patches 等所有内容都视为 Tokens。

生成的架构称为 U-ViT。在几个流行的视觉数据集上，U-ViT 实现了与 SOTA U-Net 架构相媲美的生成结果，同时需要相当数量的参数和计算，如果不是更少的话。我们的结果表明：

ViT有望用于基于分数的扩散模型；
长跳跃连接在扩散模型的成功中起着核心作用；
扩散模型不需要下采样和上采样算子。

我们相信，未来大规模或跨模态数据集的扩散模型可能会受益于 U-ViT。

https://arxiv.org/abs/2209.12152

内容中包含的图片若涉及版权问题，请及时与我们联系删除

All are Worth Words | 当 ViT 遇到扩展模型会出现什么样子的火花？

1、简介

评论列表

评论