Latte: Latent Diffusion Transformer for Video Generation

2024年01月05日
  • 简介
    我们提出了一种新颖的潜在扩散变压器,即Latte,用于视频生成。Latte首先从输入视频中提取时空标记,然后采用一系列变压器块来建模潜在空间中的视频分布。为了建模从视频中提取的大量标记,我们从分解输入视频的空间和时间维度的角度引入了四种有效的变体。为了提高生成视频的质量,我们通过严格的实验分析确定了Latte的最佳实践,包括视频剪辑补丁嵌入、模型变体、时间步-类信息注入、时间位置嵌入和学习策略。我们的全面评估表明,Latte在四个标准视频生成数据集(FaceForensics、SkyTimelapse、UCF101和Taichi-HD)上实现了最先进的性能。此外,我们将Latte扩展到文本到视频生成(T2V)任务,其中Latte与最近的T2V模型相比实现了可比较的结果。我们坚信,Latte为将变压器纳入视频生成扩散模型的未来研究提供了有价值的见解。
  • 作者讲解·3
  • 图表
  • 解决问题
    本论文旨在解决视频生成中的问题,即如何通过Transformer模型对视频进行建模和生成。这是一个相对较新的问题。
  • 关键思路
    论文提出了一种名为Latte的Latent Diffusion Transformer模型,通过提取视频的时空标记并采用一系列Transformer块来对视频分布进行建模。同时,论文还从空间和时间维度的角度引入了四种高效的变体,以建模视频中提取的大量标记。
  • 其它亮点
    论文通过严格的实验分析,包括视频剪辑补丁嵌入、模型变体、时间步类信息注入、时间位置嵌入和学习策略等,确定了Latte的最佳实践。研究表明,Latte在四个标准视频生成数据集上均取得了最先进的性能。此外,论文还将Latte扩展到文本到视频生成(T2V)任务,取得了与最近的T2V模型相当的结果。
  • 相关研究
    在这个领域中,最近的相关研究包括:'Generative Adversarial Networks (GANs) for Video Generation: A Review','Video Generation from Text: A Survey','Spatial Generative Adversarial Networks for Image Generation and Editing'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问