Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models

简介

我们介绍了 Vidu，这是一个高性能的文本到视频生成器，可以在单次生成中产生长达16秒的1080p视频。Vidu是一个扩散模型，其骨干是U-ViT，它可以解锁可扩展性和处理长视频的能力。Vidu表现出强大的连贯性和动态性，能够生成逼真和富有想象力的视频，并且与Sora——目前最强大的文本到视频生成器相媲美，能够理解一些专业的摄影技术。最后，我们对其他可控制的视频生成进行了初步实验，包括Canny到视频生成、视频预测和主题驱动生成，结果显示出有希望的结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在介绍Vidu，一种高性能的文本到视频生成器，解决长视频生成的可扩展性和处理能力问题。此外，论文还进行了其他可控制视频生成的初步实验。
关键思路

Vidu是一种扩散模型，以U-ViT为骨干，能够生成高质量、具有连贯性和动态性的视频。
其它亮点

论文展示了Vidu的强大功能，包括生成逼真和富有想象力的视频，以及理解一些专业摄影技术。此外，论文还进行了其他可控制视频生成的初步实验，结果令人鼓舞。
相关研究

最近的相关研究包括Sora等文本到视频生成器，以及其他可控制视频生成的实验。