EdgeFusion: On-Device Text-to-Image Generation

简介

为了实现文本到图像生成的稳定扩散（SD）方法的实际应用，需要处理大量的计算负担。为了解决这个挑战，最近的研究集中于减少采样步骤的方法，例如潜在一致性模型（LCM），以及采用架构优化，包括修剪和知识蒸馏。与现有方法不同，我们独特地从一个紧凑的SD变体BK-SDM开始。我们观察到，将LCM直接应用于常用的爬取数据集的BK-SDM会产生不令人满意的结果。这促使我们开发了两种策略：（1）利用来自领先的生成模型的高质量图像-文本对和（2）为LCM量身定制的先进蒸馏过程的设计。通过我们对量化、分析和设备部署的全面探索，我们仅需两个步骤就能快速生成真实照片，文本对齐的图像，在资源有限的边缘设备上延迟不到一秒。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决Stable Diffusion (SD)在文本到图像生成中的高计算负担问题，提出了一种名为BK-SDM的紧凑型SD变体，并探索了两种策略以提高模型性能。
关键思路

通过使用高质量的图像-文本对和专门为LCM设计的高级蒸馏过程，将LCM应用于BK-SDM，实现了在资源受限的边缘设备上快速生成照片般逼真、文本对齐的图像。
其它亮点

实验结果表明，该方法在计算效率和生成质量方面都取得了显著的优势，且可以在资源受限的边缘设备上实现快速图像生成。此外，该论文还提供了数据集和代码的开源。
相关研究

相关研究包括Latent Consistency Model (LCM)和知识蒸馏等方法，以及基于剪枝和知识蒸馏的架构优化。

EdgeFusion: On-Device Text-to-Image Generation

提问交流

提问交流