ControlVideo: Training-free Controllable Text-to-Video Generation
解决问题:该论文旨在解决文本到视频生成中的训练成本高、外观不一致和结构闪烁等问题。这是否是一个新问题?这是当前文本到视频生成领域的一个重要问题。
关键思路:该论文提出了一个名为ControlVideo的框架,通过从输入的运动序列中提取粗略的结构一致性,并引入三个模块来改进视频生成。首先,为了确保帧之间的外观一致性,ControlVideo在自注意模块中添加了完全跨帧交互。其次,为了减轻闪烁效果,它引入了一个交替帧平滑器,对交替帧进行帧插值。最后,为了高效地生成长视频,它使用分层采样器,以整体一致性单独合成每个短片段。相比当前文本到视频生成领域的研究状况,该论文的思路有创新之处。
其他亮点:该论文的实验使用了大量的运动提示对,定量和定性地证明了ControlVideo的优越性。值得关注的是,它可以在几分钟内使用一张NVIDIA 2080Ti生成短视频和长视频。此外,该论文提供了代码,可在https://github.com/YBYBZhang/ControlVideo上获取。这项工作值得进一步深入研究。
关于作者:主要作者包括Yabo Zhang、Yuxiang Wei、Dongsheng Jiang、Xiaopeng Zhang、Wangmeng Zuo和Qi Tian。他们来自清华大学和微软亚洲研究院。他们之前的代表作包括:《Deep Plug-and-Play Super-Resolution for Arbitrary Blur Kernels》、《Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation》、《Deep Video Deblurring for Hand-held Cameras》等。
相关研究:近期的相关研究包括:《Towards High-Fidelity Generative Video Compression with Transformers》(来自Facebook AI Research)、《VideoBERT: A Joint Model for Video and Language Representation Learning》(来自Google Research)等。
论文摘要:本文介绍了一个名为ControlVideo的框架,用于实现自然、高效的文本到视频生成,不需要进行训练即可实现。ControlVideo基于ControlNet,利用输入运动序列的粗略结构一致性,并引入了三个模块来改善视频生成。首先,为了确保帧间外观的一致性,ControlVideo在自我注意力模块中添加了完全跨帧交互。其次,为了减轻闪烁效果,它引入了交错帧平滑器,对交替帧进行帧插值。最后,为了高效地生成长视频,它利用分层采样器单独合成每个短片段,保证整体连贯性。ControlVideo在大量的运动提示对上,从定量和定性上都优于现有技术。值得注意的是,由于其高效的设计,它可以在几分钟内使用一台NVIDIA 2080Ti生成短视频和长视频。源代码可在https://github.com/YBYBZhang/ControlVideo上获得。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢