Flowception: Temporally Expansive Flow Matching for Video Generation

向作者提问

NEW

简介

我们提出Flowception，一种新颖的非自回归且支持变长视频生成的框架。Flowception学习一条概率路径，交替执行离散帧插入与连续帧去噪操作。与自回归方法相比，Flowception在采样过程中通过帧插入机制有效缓解了误差累积或漂移问题，该机制作为一种高效的压缩手段，能够更好地处理长期上下文依赖。相较于全序列流模型，我们的方法将训练过程中的浮点运算量（FLOPs）减少了三倍，更易于结合局部注意力机制，并能联合学习视频长度与其内容。定量实验结果表明，Flowception在FVD和VBench等指标上优于自回归和全序列基线方法，这一优势也得到了定性结果的进一步验证。最后，通过在序列中学习帧的插入与去噪，Flowception能够无缝整合多种任务，例如图像到视频生成以及视频插帧等。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决视频生成中的两个关键问题：一是传统自回归方法在长序列生成时存在误差累积和漂移问题；二是全序列扩散或流模型计算开销大、难以处理可变长度视频，并限制了与局部注意力机制的结合。此外，现有方法通常无法联合学习视频内容和长度。这是一个重要且尚未被充分解决的问题，尤其在高效、灵活的视频生成需求日益增长的背景下。
关键思路

Flowception提出了一种新颖的非自回归、可变长度视频生成框架，其核心是学习一个交替进行离散帧插入与连续帧去噪的概率路径。该方法在采样过程中通过帧插入机制实现高效的上下文压缩，缓解了长程依赖中的误差传播问题。相比全序列流模型，它显著降低训练FLOPs（三倍减少），同时支持动态长度建模和多任务整合（如图像到视频生成与视频插值）。
其它亮点

实验设计上，Flowception在FVD和VBench等主流视频生成评价指标上优于自回归和全序列基线方法，并辅以高质量的定性结果验证。该方法天然兼容局部注意力机制，提升了模型可扩展性。值得注意的是，它能联合学习视频内容与长度，为未来研究提供了新方向。目前未提及是否开源代码。值得深入的方向包括将其扩展至更高分辨率视频生成、结合更多条件控制信号（如文本）、以及在真实世界应用中测试泛化能力。
相关研究

1. VideoFlow: A Low-Resolution Video Diffusion Model for Generative Modeling (2023) 2. Auto-regressive Video Generation using Transformer Architectures (2022) 3. TimeSformer: Is Space-Time Attention All You Need for Video Understanding? (2021) 4. Flownception: Motion-based Video Prediction with Learned Frame Insertion (2023) 5. Dual Video Diffusion: Generating Long Videos via Dual Cascaded Diffusion Processes (2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问