StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

简介

我们介绍了StreamDiffusion，这是一种实时扩散管道，专为交互式图像生成而设计。现有的扩散模型擅长从文本或图像提示中创建图像，但它们在实时交互方面往往表现不佳。这种限制在涉及连续输入的场景中尤为明显，例如Metaverse、实时视频流和广播，其中高吞吐量至关重要。为了解决这个问题，我们提出了一种新的方法，将原始的顺序去噪转化为批处理去噪过程。Stream Batch消除了传统的等待和交互方法，实现了流畅和高吞吐量的流。为了处理数据输入和模型吞吐量之间的频率差异，我们设计了一种新的输入输出队列，用于并行化流媒体过程。此外，现有的扩散管道使用无分类器引导（CFG），需要额外的U-Net计算。为了减少冗余计算，我们提出了一种新的残差无分类器引导（RCFG）算法，将负条件去噪步骤的数量减少到只有一个甚至零个。此外，我们引入了一种随机相似性过滤器（SSF）来优化功耗。我们的Stream Batch在不同的去噪级别下比顺序去噪方法实现了约1.5倍的加速。所提出的RCFG比传统的CFG快2.05倍。将所提出的策略与现有的成熟加速工具相结合，可以在一个RTX4090上实现高达91.07fps的图像到图像生成，将Diffusers开发的AutoPipline的吞吐量提高了59.56倍。此外，我们提出的StreamDiffusion还显著降低了能耗，在一个RTX3060上降低了2.39倍，在一个RTX4090上降低了1.99倍。
图表
解决问题

StreamDiffusion试图解决现有批量批处理图像生成模型在实时交互方面的局限性，特别是在需要高吞吐量的连续输入场景中。
关键思路

StreamDiffusion通过将原始的顺序去噪转换为批量去噪过程来解决实时交互的问题，并设计了一种新的输入输出队列来处理数据输入和模型吞吐量之间的频率差异。此外，提出了一种新的残差分类器自由引导算法(RCFG)来减少负条件去噪步骤的数量。
其它亮点

StreamDiffusion通过Stream Batch实现了约1.5倍的速度提升，RCFG的速度提高了高达2.05倍，通过与现有成熟的加速工具相结合，图像生成的吞吐量最高可达91.07fps，比Diffusers开发的AutoPipline提高了59.56倍。此外，StreamDiffusion还显著降低了能耗，分别为RTX3060的2.39倍和RTX4090的1.99倍。
相关研究

与StreamDiffusion相关的研究包括使用不同技术的实时图像生成，如GAN和VAE，以及其他批量去噪模型的改进，如U-Net和DnCNN。

StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

评论