- 简介我们提出Flowception,一种新颖的非自回归且支持变长视频生成的框架。Flowception学习一条概率路径,交替执行离散帧插入与连续帧去噪操作。与自回归方法相比,Flowception在采样过程中通过帧插入机制有效缓解了误差累积或漂移问题,该机制作为一种高效的压缩手段,能够更好地处理长期上下文依赖。相较于全序列流模型,我们的方法将训练过程中的浮点运算量(FLOPs)减少了三倍,更易于结合局部注意力机制,并能联合学习视频长度与其内容。定量实验结果表明,Flowception在FVD和VBench等指标上优于自回归和全序列基线方法,这一优势也得到了定性结果的进一步验证。最后,通过在序列中学习帧的插入与去噪,Flowception能够无缝整合多种任务,例如图像到视频生成以及视频插帧等。
-
- 图表
- 解决问题论文试图解决视频生成中的两个关键问题:一是传统自回归方法在长序列生成时存在误差累积和漂移问题;二是全序列扩散或流模型计算开销大、难以处理可变长度视频,并限制了与局部注意力机制的结合。此外,现有方法通常无法联合学习视频内容和长度。这是一个重要且尚未被充分解决的问题,尤其在高效、灵活的视频生成需求日益增长的背景下。
- 关键思路Flowception提出了一种新颖的非自回归、可变长度视频生成框架,其核心是学习一个交替进行离散帧插入与连续帧去噪的概率路径。该方法在采样过程中通过帧插入机制实现高效的上下文压缩,缓解了长程依赖中的误差传播问题。相比全序列流模型,它显著降低训练FLOPs(三倍减少),同时支持动态长度建模和多任务整合(如图像到视频生成与视频插值)。
- 其它亮点实验设计上,Flowception在FVD和VBench等主流视频生成评价指标上优于自回归和全序列基线方法,并辅以高质量的定性结果验证。该方法天然兼容局部注意力机制,提升了模型可扩展性。值得注意的是,它能联合学习视频内容与长度,为未来研究提供了新方向。目前未提及是否开源代码。值得深入的方向包括将其扩展至更高分辨率视频生成、结合更多条件控制信号(如文本)、以及在真实世界应用中测试泛化能力。
- 1. VideoFlow: A Low-Resolution Video Diffusion Model for Generative Modeling (2023) 2. Auto-regressive Video Generation using Transformer Architectures (2022) 3. TimeSformer: Is Space-Time Attention All You Need for Video Understanding? (2021) 4. Flownception: Motion-based Video Prediction with Learned Frame Insertion (2023) 5. Dual Video Diffusion: Generating Long Videos via Dual Cascaded Diffusion Processes (2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流