SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces

2024年03月12日
  • 简介
    鉴于扩散模型在图像生成方面的显著成就,研究界对将这些模型扩展到视频生成表现出越来越大的兴趣。最近的视频生成扩散模型主要利用注意力层来提取时间特征。然而,由于注意力层的内存消耗随序列长度的增加呈二次增长,这种限制在尝试使用扩散模型生成更长的视频序列时会带来重大挑战。为了克服这一挑战,我们提出了利用状态空间模型(SSMs)的方法。由于相对于序列长度,SSMs具有线性内存消耗,因此最近它们已经引起了人们的关注,被视为可行的替代方案。在实验中,我们首先使用UCF101进行了SSM基于模型的评估,这是视频生成的标准基准。此外,为了调查SSMs在生成更长的视频方面的潜力,我们进行了一项实验,使用MineRL Navigate数据集,将帧数变化为64和150。在这些设置中,我们基于SSM的模型可以大大节省更长序列的内存消耗,同时保持与基于注意力模型竞争力的FVD分数。我们的代码可在https://github.com/shim0114/SSM-Meets-Video-Diffusion-Models上找到。
  • 图表
  • 解决问题
    本论文旨在解决视频生成中注意力层所带来的内存消耗问题,提出利用状态空间模型(SSMs)来生成长视频序列。
  • 关键思路
    论文提出使用状态空间模型(SSMs)来替代注意力层,以解决生成长视频序列时的内存消耗问题。相比于注意力层,SSMs 的内存消耗相对较小,可以更好地处理长序列。
  • 其它亮点
    论文在 UCF101 和 MineRL Navigate 数据集上进行了实验,证明了 SSM-based model 在生成长视频序列时可以显著节省内存消耗,同时保持与注意力层模型相当的 FVD 得分。作者已经开源了相关代码。
  • 相关研究
    在视频生成领域,最近的相关研究包括:《Generative Modeling of Long Videos Using Temporal Aggregation and Gated Recurrent Nets》、《Video Generation Using VQ-VAE and Transformers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论