Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

2025年02月14日
  • 简介
    我们推出了Step-Video-T2V,这是一个最先进的文本到视频预训练模型,拥有300亿参数,并能够生成长达204帧的视频。为了视频生成任务,我们设计了一个深度压缩变分自编码器(Video-VAE),实现了16x16的空间压缩和8倍的时间压缩比率,同时保持了卓越的视频重建质量。用户提示通过两个双语文本编码器进行编码,以处理英文和中文。一个具有3D全注意力机制的DiT使用流匹配方法进行训练,并用于将输入噪声去噪为潜在帧。我们应用了一种基于视频的DPO方法(Video-DPO),以减少伪影并提高生成视频的视觉质量。此外,我们详细介绍了我们的训练策略,并分享了关键观察和见解。Step-Video-T2V的性能在一个新的视频生成基准Step-Video-T2V-Eval上进行了评估,展示了其在与开源和商业引擎相比时处于领先的文本到视频质量。此外,我们讨论了当前扩散模型范式的局限性,并概述了视频基础模型的未来方向。我们将Step-Video-T2V和Step-Video-T2V-Eval发布在https://github.com/stepfun-ai/Step-Video-T2V。在线版本可以从https://yuewen.cn/videos访问。我们的目标是加速视频基础模型的创新,并赋能视频内容创作者。
  • 图表
  • 解决问题
    论文试图解决的问题是开发一种高效且高质量的文本到视频生成模型,能够处理多语言输入并生成长序列视频。这是一个相对较新的问题,尤其是在结合大规模参数、多语言支持以及高质量视频生成方面。
  • 关键思路
    关键思路在于设计了一个具有30B参数的大规模预训练模型Step-Video-T2V,该模型结合了深度压缩变分自编码器(Video-VAE)以实现高效的视频生成,并使用双向文本编码器来处理中英文输入。此外,引入了基于扩散模型的时间匹配和去噪过程,以及视频导向策略优化(Video-DPO),以提高生成视频的质量。相比现有研究,此模型在参数规模、生成视频长度及多语言支持方面都有显著创新。
  • 其它亮点
    论文的亮点包括:1) 实现了长达204帧的高质量视频生成;2) 提出了16x16空间和8x时间压缩比的Video-VAE;3) 使用Flow Matching进行去噪,提高了生成视频的真实感;4) 引入了Video-DPO减少生成视频中的伪影;5) 构建了新的评估基准Step-Video-T2V-Eval;6) 开源了模型和评估基准,促进了后续研究的发展。实验设计详尽,涵盖了与开源和商业引擎的对比测试。
  • 相关研究
    最近在这个领域中,相关研究还包括《Text-to-Video Generation with Temporal Diffusion Models》、《Cascaded Text-to-Video Generation via Action-Aware Pre-training》等。这些研究主要集中在改进扩散模型的时间一致性、增强动作感知能力等方面。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论