- 简介我们提出了VEnhancer,这是一个生成空间时间增强框架,通过在空间域中添加更多细节和在时间域中合成详细的运动,改进了现有的文本到视频结果。给定一个生成的低质量视频,我们的方法可以通过统一的视频扩散模型同时增加其空间和时间分辨率,具有任意的上采样空间和时间比例。此外,VEnhancer有效地消除了生成视频的空间伪影和时间闪烁。为了实现这一点,我们在预训练的视频扩散模型的基础上,训练了一个视频控制网络,并将其注入到扩散模型中,作为低帧率和低分辨率视频的条件。为了有效地训练这个视频控制网络,我们设计了空间时间数据增强和视频感知调节。受益于上述设计,VEnhancer在训练过程中非常稳定,并且具有优雅的端到端训练方式。广泛的实验表明,VEnhancer在增强AI生成的视频方面超越了现有的最先进的视频超分辨率和时空超分辨率方法。此外,使用VEnhancer,现有的开源最先进的文本到视频方法VideoCrafter-2在视频生成基准VBench中达到了第一名。
- 图表
- 解决问题VEnhancer试图解决AI生成视频的低空间和时间分辨率问题,同时消除生成视频的空间伪影和时间闪烁。
- 关键思路VEnhancer使用统一的视频扩散模型,通过训练视频控制网络来同时增加视频的空间和时间分辨率,从而有效地消除生成视频的伪影和闪烁。
- 其它亮点VEnhancer的亮点包括:使用视频控制网络来改进现有的视频扩散模型,设计了时空数据增强和视频感知调节来有效地训练视频控制网络,实验结果表明VEnhancer在增强AI生成视频方面超过了现有的视频超分辨率和时空超分辨率方法,并且在视频生成基准测试中达到了最佳成绩。
- 与VEnhancer相关的研究包括:VideoCrafter-2,以及其他视频超分辨率和时空超分辨率方法。
沙发等你来抢
去评论
评论
沙发等你来抢