- 简介我们介绍了Step-Video-T2V,这是一款最先进的文本到视频预训练模型,拥有300亿参数,并能够生成长达204帧的视频。为了视频生成任务,设计了一个深度压缩变分自编码器(Video-VAE),实现了16x16的空间和8倍的时间压缩比,同时保持了卓越的视频重建质量。用户提示通过两个双语文本编码器进行编码,以处理英语和中文。一个带有3D全注意力机制的DiT使用Flow Matching进行训练,并用于将输入噪声去噪为潜在帧。采用了一种基于视频的DPO方法(Video-DPO)来减少伪影并提高生成视频的视觉质量。我们还详细介绍了我们的训练策略,并分享了关键观察和见解。Step-Video-T2V的性能在一个新的视频生成基准测试(Step-Video-T2V-Eval)上进行了评估,展示了其在与开源和商业引擎相比时的顶尖文本到视频质量。此外,我们讨论了当前基于扩散模型范式的局限性,并概述了视频基础模型的未来发展方向。我们将Step-Video-T2V和Step-Video-T2V-Eval发布在https://github.com/stepfun-ai/Step-Video-T2V。在线版本可以从https://yuewen.cn/videos访问。我们的目标是加速视频基础模型的创新,并赋能视频内容创作者。
- 图表
- 解决问题该论文试图解决从文本生成高质量视频的问题,特别是旨在提高生成视频的长度、清晰度和多语言支持。这是一个具有挑战性的问题,尤其是在生成长序列视频和处理多种语言方面。
- 关键思路关键思路在于使用了一个包含30B参数的深度压缩变分自编码器(Video-VAE),实现了16x16的空间和8x的时间压缩比,同时保持了出色的视频重建质量。此外,通过两个双语文本编码器处理英语和中文提示,并采用Flow Matching训练的DiT与3D全注意力机制来去噪输入噪声,生成潜在帧。还引入了视频导向策略优化(Video-DPO)以减少伪影并提升视觉质量。这在当前的研究中是一个创新的方法,特别是在多语言支持和视频生成的质量上。
- 其它亮点论文设计了一种新型的评估基准Step-Video-T2V-Eval,用于验证模型性能。实验表明,Step-Video-T2V在开放源代码和商业引擎对比中表现出色。此外,作者开源了模型和评估基准,提供了在线访问链接,为后续研究提供了便利。值得进一步研究的方向包括改进扩散模型范式和探索更高效的视频生成方法。
- 最近在这个领域内的相关研究还包括:1. VideoGAN系列工作,如Vid2Vid-CGAN,它专注于条件生成对抗网络在视频生成中的应用;2. DALL·E 2和Imagen Video,这些模型在图像到视频生成方面取得了显著进展;3. Make-A-Video,它提出了基于Transformer架构的视频生成方法。
沙发等你来抢
去评论
评论
沙发等你来抢