Make Pixels Dance: High-Dynamic Video Generation

2023年11月18日
  • 简介
    制作高动态视频,如充满动作和复杂视觉效果的视频,是人工智能领域的重大挑战。不幸的是,目前主要关注文本到视频生成的最先进视频生成方法,往往会产生视频剪辑,尽管保持高保真度,但运动最小。我们认为,仅依赖文本指令对于视频生成来说是不充分和次优的。在本文中,我们介绍了PixelDance,一种基于扩散模型的新方法,它结合了图像指令和文本指令,用于第一帧和最后一帧的视频生成。全面的实验结果表明,使用公共数据训练的PixelDance在合成复杂场景和复杂动作的视频方面表现出显著的优异性,为视频生成设定了新的标准。
  • 作者讲解
  • 图表
  • 解决问题
    PixelDance论文试图解决的问题是生成高质量、复杂场景和精细动作的视频,相比当前的文本到视频生成技术,这篇论文提出了一种新的方法。
  • 关键思路
    PixelDance使用扩散模型,并结合图像和文本指令生成视频的第一帧和最后一帧,从而生成具有复杂场景和精细动作的视频。
  • 其它亮点
    PixelDance实验使用公共数据集进行训练,并展示了其在生成具有复杂场景和精细动作的视频方面的显著能力。该论文的代码已经开源,值得进一步研究。
  • 相关研究
    在这个领域的相关研究包括:Text-to-Video Generation Using Style-Based Generative Adversarial Networks、Generative Flow for Text-to-Video Synthesis、Text2Video: Controllable Video Generation from Text、Text-to-Video Generation with Coherent Motion Filters。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问