Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models

简介

变形金刚模型在计算机视觉和自然语言处理领域推动了进步。然而，其巨大的计算复杂性限制了其在长序列任务（例如高分辨率图像生成）中的应用。本文介绍了一系列从NLP中使用的RWKV模型改进而来的体系结构，针对应用于图像生成任务的扩散模型进行了必要的修改，称为Diffusion-RWKV。与变形金刚扩散类似，我们的模型设计旨在有效地处理带有额外条件的序列化的补丁化输入，同时也可以有效地进行扩展，适应大规模参数和广泛的数据集。其独特的优势在于其降低的空间聚合复杂度，使其在处理高分辨率图像时异常灵活，从而消除了窗口化或组缓存操作的必要性。在有条件和无条件的图像生成任务上的实验结果表明，Diffusion-RWKV在FID和IS指标上的表现与现有的基于CNN或变形金刚的扩散模型相当或优于其表现，同时显著减少了总计算FLOP的使用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决Transformer模型在处理高分辨率图像生成等长序列任务时的计算复杂度问题，提出了一种基于RWKV模型并针对图像生成任务进行修改的Diffusion-RWKV架构。
关键思路

Diffusion-RWKV模型是一种能够高效处理高分辨率图像生成任务的模型，相比于CNN或Transformer-based模型，它具有更低的空间聚合复杂度，能够消除窗口化或组缓存操作的必要性。
其它亮点

本文的实验结果表明，Diffusion-RWKV模型在FID和IS指标上表现与现有的CNN或Transformer-based扩散模型相当甚至更优，同时显著降低了总计算FLOP使用量。本文使用了多个数据集进行实验，并提供了开源代码。
相关研究

最近的相关研究包括：《Image Generation Using Generative Adversarial Networks》、《A Style-Based Generator Architecture for Generative Adversarial Networks》、《Analyzing and Improving the Image Quality of StyleGAN》等。

Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models

提问交流

提问交流