ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning

简介

最近，视频合成技术的发展引起了广泛的关注。AnimateDiff和Stable Video Diffusion等视频合成模型展示了扩散模型在创建动态视觉内容方面的实际应用性。SORA的出现进一步突显了视频生成技术的潜力。然而，计算资源的限制限制了视频长度的扩展。大多数现有的视频合成模型只能生成短视频片段。在本文中，我们提出了一种新颖的视频合成模型后调整方法，称为ExVideo。这种方法旨在增强当前视频合成模型的能力，使它们能够在较长的时间范围内生成内容，同时降低训练成本。具体而言，我们分别设计了常见的时间模型架构的扩展策略，包括3D卷积、时间注意力和位置嵌入。为了评估我们提出的后调整方法的有效性，我们对Stable Video Diffusion模型进行了扩展训练。我们的方法增加了模型生成原始帧数的最多5倍的能力，仅需要在包含40,000个视频的数据集上进行1.5k GPU小时的训练。重要的是，视频长度的大幅增加不会损害模型的内在泛化能力，并且该模型在生成具有不同风格和分辨率的视频方面展示了其优势。我们将公开发布源代码和增强模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文提出了一种名为ExVideo的后调整方法，旨在增强当前视频合成模型的能力，使其能够在较长的时间跨度内生成内容，同时降低训练成本。
关键思路

ExVideo方法旨在通过在常见的时间模型架构中设计扩展策略，包括3D卷积、时间注意力和位置嵌入，来增强视频合成模型的能力。
其它亮点

论文通过在Stable Video Diffusion模型上进行扩展训练，展示了ExVideo方法的有效性。该方法可以使模型的生成能力增加到原来的5倍，仅需要1.5k GPU小时的训练时间。同时，论文还展示了该方法在生成具有不同风格和分辨率的视频方面的优势，并公开了源代码和增强模型。
相关研究

最近在视频合成领域，还有一些相关的研究，如AnimateDiff、Stable Video Diffusion和SORA等。

ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning

提问交流

提问交流