- 简介制作高动态视频,如充满动作和复杂视觉效果的视频,是人工智能领域的重大挑战。不幸的是,目前主要关注文本到视频生成的最先进视频生成方法,往往会产生视频剪辑,尽管保持高保真度,但运动最小。我们认为,仅依赖文本指令对于视频生成来说是不充分和次优的。在本文中,我们介绍了PixelDance,一种基于扩散模型的新方法,它结合了图像指令和文本指令,用于第一帧和最后一帧的视频生成。全面的实验结果表明,使用公共数据训练的PixelDance在合成复杂场景和复杂动作的视频方面表现出显著的优异性,为视频生成设定了新的标准。
-
- 图表
- 解决问题PixelDance论文试图解决的问题是生成高质量、复杂场景和精细动作的视频,相比当前的文本到视频生成技术,这篇论文提出了一种新的方法。
- 关键思路PixelDance使用扩散模型,并结合图像和文本指令生成视频的第一帧和最后一帧,从而生成具有复杂场景和精细动作的视频。
- 其它亮点PixelDance实验使用公共数据集进行训练,并展示了其在生成具有复杂场景和精细动作的视频方面的显著能力。该论文的代码已经开源,值得进一步研究。
- 在这个领域的相关研究包括:Text-to-Video Generation Using Style-Based Generative Adversarial Networks、Generative Flow for Text-to-Video Synthesis、Text2Video: Controllable Video Generation from Text、Text-to-Video Generation with Coherent Motion Filters。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流