Pyramidal Flow Matching for Efficient Video Generative Modeling

2024年10月08日
  • 简介
    视频生成需要对一个广阔的时空范围进行建模,这需要大量的计算资源和数据使用。为了降低复杂性,现有方法采用级联架构来避免直接使用完整分辨率进行训练。虽然减少了计算需求,但每个子阶段的分开优化阻碍了知识共享并牺牲了灵活性。本研究介绍了一种统一的金字塔流匹配算法。它将原始的去噪轨迹重新解释为一系列金字塔阶段,其中只有最后一个阶段在完整分辨率下运行,从而实现更高效的视频生成建模。通过我们精心的设计,不同金字塔阶段的流可以相互链接以保持连续性。此外,我们使用时间金字塔来压缩完整分辨率历史的自回归视频生成。整个框架可以在端到端的方式下通过一个单一的统一扩散变压器(DiT)进行优化。大量实验证明,我们的方法支持在20.7k A100 GPU培训小时内以768p分辨率和24 FPS生成高质量的5秒(最多10秒)视频。所有代码和模型将在https://pyramid-flow.github.io上开源。
  • 图表
  • 解决问题
    论文旨在解决视频生成中的计算复杂度问题,通过引入金字塔流匹配算法,实现更高效的视频生成建模。
  • 关键思路
    论文提出了一种统一的金字塔流匹配算法,将原始的去噪轨迹重新解释为一系列金字塔阶段,从而实现更高效的视频生成建模。通过设计不同金字塔阶段的流的相互链接,以保持连续性。
  • 其它亮点
    论文的亮点包括:1.使用统一的Diffusion Transformer (DiT)实现了端到端的优化;2.通过引入时间金字塔,实现了自回归视频生成;3.实验中生成了高质量的5秒(最多10秒)视频,分辨率为768p,帧率为24 FPS,训练时间为20.7k A100 GPU小时;4.开源了所有代码和模型。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:1.《Video Flow Fields: Exploiting Spatio-temporal Smoothness for Flow-Based Video Generation》;2.《Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks》;3.《Video Generation from Single Static Images with Multi-Scale Progressive Generative Networks》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论