Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models

2024年05月07日
  • 简介
    我们介绍了 Vidu,这是一个高性能的文本到视频生成器,可以在单次生成中产生长达16秒的1080p视频。Vidu是一个扩散模型,其骨干是U-ViT,它可以解锁可扩展性和处理长视频的能力。Vidu表现出强大的连贯性和动态性,能够生成逼真和富有想象力的视频,并且与Sora——目前最强大的文本到视频生成器相媲美,能够理解一些专业的摄影技术。最后,我们对其他可控制的视频生成进行了初步实验,包括Canny到视频生成、视频预测和主题驱动生成,结果显示出有希望的结果。
  • 图表
  • 解决问题
    论文旨在介绍Vidu,一种高性能的文本到视频生成器,解决长视频生成的可扩展性和处理能力问题。此外,论文还进行了其他可控制视频生成的初步实验。
  • 关键思路
    Vidu是一种扩散模型,以U-ViT为骨干,能够生成高质量、具有连贯性和动态性的视频。
  • 其它亮点
    论文展示了Vidu的强大功能,包括生成逼真和富有想象力的视频,以及理解一些专业摄影技术。此外,论文还进行了其他可控制视频生成的初步实验,结果令人鼓舞。
  • 相关研究
    最近的相关研究包括Sora等文本到视频生成器,以及其他可控制视频生成的实验。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论