EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

简介

本文介绍了EasyAnimate，这是一种利用变压器架构实现高性能视频生成的先进方法。我们扩展了最初设计用于2D图像合成的DiT框架，以适应3D视频生成的复杂性，其中包含一个运动模块块，用于捕捉时间动态，从而确保产生一致的帧和无缝的运动转换。运动模块可以适应各种DiT基线方法，以生成具有不同风格的视频。它还可以在训练和推理阶段生成不同帧率和分辨率的图像和视频。此外，我们引入了切片VAE，一种压缩时间轴的新方法，有助于生成长时间视频。目前，EasyAnimate表现出生成144帧视频的能力。我们提供了基于DiT的视频生产的整体生态系统，包括数据预处理、VAE训练、DiT模型训练（基线模型和LoRA模型）和端到端视频推理。代码可在https://github.com/aigc-apps/EasyAnimate上找到。我们正在不断努力提高我们的方法的性能。
图表
解决问题

EasyAnimate论文旨在解决3D视频生成中的一些复杂性问题，包括如何捕捉时间动态并确保产生一致的帧和无缝的运动过渡。
关键思路

EasyAnimate使用Transformer架构和运动模块块扩展了DiT框架，以生成不同风格的视频，并能够在训练和推理阶段生成不同帧率和分辨率的视频，同时使用slice VAE来压缩时间轴以生成长时间视频。
其它亮点

EasyAnimate提供了一个完整的基于DiT的视频生成生态系统，包括数据预处理，VAE训练，DiT模型训练和端到端视频推理。代码已在GitHub上开源。
相关研究

在这个领域中，最近的相关研究包括Deep Video Generation，Video Generation with Recurrent Adversarial Networks和Generative Adversarial Networks for Video Generation。

EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

评论