Dual-Stream Diffusion Net for Text-to-Video Generation
解决问题: 本论文旨在解决文本到视频生成中存在的视频抖动和伪影问题,提出了一种双流扩散网络(DSDN)来提高生成视频中内容变化的一致性。
关键思路: 本文的关键思路是设计了两个扩散流,即视频内容和运动分支,它们可以分别在私有空间中运行,以生成个性化视频变化和内容,并通过交叉转换器交互模块在内容和运动领域之间进行良好的对齐,从而有利于生成视频的平滑性。此外,本文还引入了运动分解器和组合器来促进对视频运动的操作。
其他亮点: 本文的实验结果表明,相较于当前领域的研究,该方法能够生成更平滑的视频,具有很好的应用前景。此外,本文还开源了代码,使用了多个数据集进行实验,并提出了一些值得深入研究的工作。
关于作者: 本文的主要作者包括Binhui Liu、Xin Liu、Anbo Dai、Zhiyong Zeng、Zhen Cui和Jian Yang。他们分别来自中国的南京大学、苏州大学和华为技术有限公司。他们之前的代表作包括《Deep Learning for Video Classification: A Comprehensive Review》和《Video Generation from Text: A Survey》等。
相关研究: 近期其他相关的研究包括:
- "Text-to-Video Generation via Adversarial Learning with Diversity-Promoting Loss",作者:Yitong Li、Yueyu Hu、Guanghui Ren、Jingkuan Song,机构:中国科学院自动化研究所。
- "Text-to-Video Generation by Learning Explicit and Implicit Bidirectional Cross-Modal Mappings",作者:Yijun Wang、Jingwei Xu、Xin Wang、Yonghong Tian,机构:中国科学院自动化研究所和华为技术有限公司。
论文摘要:本文提出了一种双流扩散网络 (DSDN) 来改善生成视频中存在的闪烁和伪影问题。该网络分为视频内容和运动两个分支,能够在它们各自的私有空间中分别运行,产生个性化的视频变化和内容,并通过交叉变换器交互模块在内容和运动领域之间进行良好的对齐,从而有利于生成视频的平滑性。此外,本文还介绍了运动分解器和合成器来促进对视频运动的操作。定性和定量实验表明,本方法能够产生更少闪烁的惊人连续视频。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢