EdgeFusion: On-Device Text-to-Image Generation

2024年04月18日
  • 简介
    为了实现文本到图像生成的稳定扩散(SD)方法的实际应用,需要处理大量的计算负担。为了解决这个挑战,最近的研究集中于减少采样步骤的方法,例如潜在一致性模型(LCM),以及采用架构优化,包括修剪和知识蒸馏。与现有方法不同,我们独特地从一个紧凑的SD变体BK-SDM开始。我们观察到,将LCM直接应用于常用的爬取数据集的BK-SDM会产生不令人满意的结果。这促使我们开发了两种策略:(1)利用来自领先的生成模型的高质量图像-文本对和(2)为LCM量身定制的先进蒸馏过程的设计。通过我们对量化、分析和设备部署的全面探索,我们仅需两个步骤就能快速生成真实照片,文本对齐的图像,在资源有限的边缘设备上延迟不到一秒。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决Stable Diffusion (SD)在文本到图像生成中的高计算负担问题,提出了一种名为BK-SDM的紧凑型SD变体,并探索了两种策略以提高模型性能。
  • 关键思路
    通过使用高质量的图像-文本对和专门为LCM设计的高级蒸馏过程,将LCM应用于BK-SDM,实现了在资源受限的边缘设备上快速生成照片般逼真、文本对齐的图像。
  • 其它亮点
    实验结果表明,该方法在计算效率和生成质量方面都取得了显著的优势,且可以在资源受限的边缘设备上实现快速图像生成。此外,该论文还提供了数据集和代码的开源。
  • 相关研究
    相关研究包括Latent Consistency Model (LCM)和知识蒸馏等方法,以及基于剪枝和知识蒸馏的架构优化。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问