Make Pixels Dance: High-Dynamic Video Generation

简介

制作高动态视频，如充满动作和复杂视觉效果的视频，是人工智能领域的重大挑战。不幸的是，目前主要关注文本到视频生成的最先进视频生成方法，往往会产生视频剪辑，尽管保持高保真度，但运动最小。我们认为，仅依赖文本指令对于视频生成来说是不充分和次优的。在本文中，我们介绍了PixelDance，一种基于扩散模型的新方法，它结合了图像指令和文本指令，用于第一帧和最后一帧的视频生成。全面的实验结果表明，使用公共数据训练的PixelDance在合成复杂场景和复杂动作的视频方面表现出显著的优异性，为视频生成设定了新的标准。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

PixelDance论文试图解决的问题是生成高质量、复杂场景和精细动作的视频，相比当前的文本到视频生成技术，这篇论文提出了一种新的方法。
关键思路

PixelDance使用扩散模型，并结合图像和文本指令生成视频的第一帧和最后一帧，从而生成具有复杂场景和精细动作的视频。
其它亮点

PixelDance实验使用公共数据集进行训练，并展示了其在生成具有复杂场景和精细动作的视频方面的显著能力。该论文的代码已经开源，值得进一步研究。
相关研究

在这个领域的相关研究包括：Text-to-Video Generation Using Style-Based Generative Adversarial Networks、Generative Flow for Text-to-Video Synthesis、Text2Video: Controllable Video Generation from Text、Text-to-Video Generation with Coherent Motion Filters。

Make Pixels Dance: High-Dynamic Video Generation

提问交流

提问交流