MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

2024年01月09日
  • 简介
    高保真视频生成的需求不断增长,促使该领域的研究取得了重要进展。在这项工作中,我们介绍了MagicVideo-V2,它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端视频生成流程中。由于这些架构设计的优势,MagicVideo-V2可以生成外观优美、高分辨率、高保真度和平滑度的视频。通过大规模用户评估,它展示了优于Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion模型等领先的文本到视频系统的性能。
  • 图表
  • 解决问题
    本论文旨在解决从文本描述生成高保真度视频的问题,并验证其性能是否优于当前领先的文本到视频系统。
  • 关键思路
    MagicVideo-V2将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端的视频生成管道中。通过这些架构设计,MagicVideo-V2可以生成具有出色保真度和平滑度的美观高分辨率视频。
  • 其它亮点
    论文通过用户评估展示了MagicVideo-V2相对于Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion模型在大规模上的优越性能。实验中使用了多个数据集,并提供了开源代码。
  • 相关研究
    在最近的相关研究中,还有一些文本到视频生成的工作,例如《Generative Adversarial Text to Video Synthesis》、《Text-to-Video Generation Grounded by Fine-Grained User Attention》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问