- 简介本文记录了我们对于使用稳定扩散模型进行文本到图像请求服务的特征化研究和实践。我们首先全面分析了商业文本到图像应用程序的推理请求跟踪。研究始于我们的观察,即增强基础稳定扩散模型的附加模块,即ControlNets和LoRAs,在生成商业应用程序的图像中是无处不在的。尽管它们很有效,但这些附加模块会产生高负载开销,延长服务延迟,并吞噬昂贵的GPU资源。在特征化研究的驱动下,我们提出了SwiftDiffusion,这是一个使用稳定扩散模型和附加模块高效生成高质量图像的系统。为了实现这一点,SwiftDiffusion通过识别并行计算的机会和将ControlNet计算分布到多个GPU中来重构现有的文本到图像服务工作流程。此外,SwiftDiffusion彻底分析了图像生成的动态,并开发了技术来消除与LoRA加载和修补相关的开销,同时保持图像质量。最后,SwiftDiffusion提出了稳定扩散模型的骨干架构的专门优化,这些优化也与附加模块的高效服务兼容。与最先进的文本到图像服务系统相比,SwiftDiffusion将服务延迟降低了多达5倍,并将服务吞吐量提高了多达2倍,而不会影响图像质量。
- 图表
- 解决问题解决文本生成图像应用中,使用扩展稳定扩散模型(如ControlNets和LoRAs)时,高负载和延迟的问题。
- 关键思路SwiftDiffusion系统通过识别并利用并行计算机会、在多个GPU上分布ControlNet计算、消除LoRA加载和修补的开销、以及在稳定扩散模型的骨干架构中进行优化,提高了图像生成的效率。
- 其它亮点实验表明,SwiftDiffusion相比最先进的文本生成图像系统,可以将服务延迟降低多达5倍,同时将服务吞吐量提高多达2倍,而不影响图像质量。
- 最近的相关研究包括《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢