Playing with Transformer at 30+ FPS via Next-Frame Diffusion

向作者提问

NEW

简介

自回归视频模型在创建交互式视频内容以及支持任意时长的流媒体应用方面，相比双向扩散模型具有显著优势。在这项工作中，我们提出了下一帧扩散（Next-Frame Diffusion, NFD），这是一种结合了块状因果注意力机制的自回归扩散变压器模型，能够通过每帧内的并行标记生成实现迭代采样和高效推理。然而，对于此类模型而言，实现实时视频生成仍然是一个重大挑战，主要原因是扩散采样的高计算成本以及自回归生成固有的硬件效率问题。为了解决这一问题，我们引入了两项创新：（1）我们将一致性蒸馏扩展到视频领域，并针对视频模型进行了专门调整，从而能够在少量采样步骤中实现高效推理；（2）为了充分利用并行计算能力，基于相邻帧通常共享相同动作输入的观察结果，我们提出了推测性采样方法。在这种方法中，模型使用当前的动作输入生成接下来的几帧，如果输入动作发生变化，则丢弃推测性生成的帧。在大规模动作条件视频生成基准上的实验表明，NFD在视觉质量和采样效率方面均优于自回归基线模型。我们首次通过一个3.1亿参数的模型，在A100 GPU上实现了超过30帧每秒（FPS）的自回归视频生成。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

该论文试图解决实时视频生成的问题，特别是针对高计算成本和硬件效率低下的挑战。这是一个重要的问题，因为当前的自回归模型和双向扩散模型在生成高质量视频时通常无法达到实时性能。
关键思路

论文提出了一种名为Next-Frame Diffusion (NFD) 的自回归扩散变压器模型，结合块状因果注意机制以实现迭代采样和高效的推理。为了进一步优化性能，论文引入了两种创新方法：(1) 将一致性蒸馏扩展到视频领域，减少采样步骤；(2) 提出投机性采样（speculative sampling），通过并行计算提高效率。这些方法使得模型能够在A100 GPU上以超过30 FPS的速度生成视频，显著提升了实时性能。
其它亮点

实验设计包括在大规模动作条件视频生成基准上的测试，结果表明NFD在视觉质量和采样效率上优于其他自回归基线模型。此外，论文首次实现了超过30 FPS的自回归视频生成。虽然论文未明确提到代码开源，但其提出的技术框架为未来研究提供了方向，例如探索更高效的采样策略或更大规模的数据集应用。
相关研究

相关研究包括使用双向扩散模型进行视频生成的工作，如Video Diffusion Models 和 Action-Conditioned Video Prediction with Transformers。此外，还有关于一致性蒸馏的研究，如Consistency Distillation for Accelerating Diffusion Models，以及探讨投机性采样的类似工作，如Speculative Decoding for Efficient Transformer Inference。这些研究共同推动了视频生成领域的技术进步。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问