Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models

2024年04月06日
  • 简介
    变形金刚模型在计算机视觉和自然语言处理领域推动了进步。然而,其巨大的计算复杂性限制了其在长序列任务(例如高分辨率图像生成)中的应用。本文介绍了一系列从NLP中使用的RWKV模型改进而来的体系结构,针对应用于图像生成任务的扩散模型进行了必要的修改,称为Diffusion-RWKV。与变形金刚扩散类似,我们的模型设计旨在有效地处理带有额外条件的序列化的补丁化输入,同时也可以有效地进行扩展,适应大规模参数和广泛的数据集。其独特的优势在于其降低的空间聚合复杂度,使其在处理高分辨率图像时异常灵活,从而消除了窗口化或组缓存操作的必要性。在有条件和无条件的图像生成任务上的实验结果表明,Diffusion-RWKV在FID和IS指标上的表现与现有的基于CNN或变形金刚的扩散模型相当或优于其表现,同时显著减少了总计算FLOP的使用。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决Transformer模型在处理高分辨率图像生成等长序列任务时的计算复杂度问题,提出了一种基于RWKV模型并针对图像生成任务进行修改的Diffusion-RWKV架构。
  • 关键思路
    Diffusion-RWKV模型是一种能够高效处理高分辨率图像生成任务的模型,相比于CNN或Transformer-based模型,它具有更低的空间聚合复杂度,能够消除窗口化或组缓存操作的必要性。
  • 其它亮点
    本文的实验结果表明,Diffusion-RWKV模型在FID和IS指标上表现与现有的CNN或Transformer-based扩散模型相当甚至更优,同时显著降低了总计算FLOP使用量。本文使用了多个数据集进行实验,并提供了开源代码。
  • 相关研究
    最近的相关研究包括:《Image Generation Using Generative Adversarial Networks》、《A Style-Based Generator Architecture for Generative Adversarial Networks》、《Analyzing and Improving the Image Quality of StyleGAN》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问