EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

2024年05月29日
  • 简介
    本文介绍了EasyAnimate,这是一种利用变压器架构实现高性能视频生成的先进方法。我们扩展了最初设计用于2D图像合成的DiT框架,以适应3D视频生成的复杂性,其中包含一个运动模块块,用于捕捉时间动态,从而确保产生一致的帧和无缝的运动转换。运动模块可以适应各种DiT基线方法,以生成具有不同风格的视频。它还可以在训练和推理阶段生成不同帧率和分辨率的图像和视频。此外,我们引入了切片VAE,一种压缩时间轴的新方法,有助于生成长时间视频。目前,EasyAnimate表现出生成144帧视频的能力。我们提供了基于DiT的视频生产的整体生态系统,包括数据预处理、VAE训练、DiT模型训练(基线模型和LoRA模型)和端到端视频推理。代码可在https://github.com/aigc-apps/EasyAnimate上找到。我们正在不断努力提高我们的方法的性能。
  • 图表
  • 解决问题
    EasyAnimate论文旨在解决3D视频生成中的一些复杂性问题,包括如何捕捉时间动态并确保产生一致的帧和无缝的运动过渡。
  • 关键思路
    EasyAnimate使用Transformer架构和运动模块块扩展了DiT框架,以生成不同风格的视频,并能够在训练和推理阶段生成不同帧率和分辨率的视频,同时使用slice VAE来压缩时间轴以生成长时间视频。
  • 其它亮点
    EasyAnimate提供了一个完整的基于DiT的视频生成生态系统,包括数据预处理,VAE训练,DiT模型训练和端到端视频推理。代码已在GitHub上开源。
  • 相关研究
    在这个领域中,最近的相关研究包括Deep Video Generation,Video Generation with Recurrent Adversarial Networks和Generative Adversarial Networks for Video Generation。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论