OminiControl: Minimal and Universal Control for Diffusion Transformer

2024年11月22日
  • 简介
    在本文中,我们介绍了OminiControl,这是一个高度通用且参数高效的框架,能够将图像条件集成到预训练的扩散变换器(DiT)模型中。其核心在于,OminiControl利用了一种参数重用机制,使DiT能够以其自身作为强大的主干网络来编码图像条件,并使用其灵活的多模态注意力处理器处理这些条件。与现有的依赖复杂架构的附加编码模块的方法不同,OminiControl(1)仅需增加约0.1%的额外参数,就能高效地融入注入的图像条件,(2)以统一的方式解决广泛的图像条件任务,包括主题驱动生成和空间对齐条件,如边缘、深度等。尤为值得一提的是,这些能力是通过使用DiT自身生成的图像进行训练而实现的,这特别有利于主题驱动生成。广泛的评估表明,OminiControl在主题驱动和空间对齐条件生成方面均优于现有的基于UNet和适应DiT的模型。此外,我们发布了我们的训练数据集Subjects200K,这是一个包含超过200,000张身份一致图像的多样化集合,以及一个高效的数据合成管道,以推动主题一致性生成领域的研究。
  • 解决问题
    该论文旨在解决如何高效地将图像条件集成到预训练的扩散变换器(DiT)模型中,以实现多模态条件生成任务。这是一个具有挑战性的问题,因为现有的方法通常需要额外的复杂编码模块和大量的参数。
  • 关键思路
    OminiControl 提出了一种参数重用机制,利用预训练的 DiT 模型本身作为强大的主干网络,通过其灵活的多模态注意力处理器来处理图像条件。这种方法只需要增加约 0.1% 的额外参数,就能有效地整合图像条件,并且能够统一处理多种图像条件任务,包括主体驱动生成和空间对齐条件(如边缘、深度等)。
  • 其它亮点
    1. OminiControl 在主体驱动生成和空间对齐条件生成任务上均优于现有的 UNet 基和 DiT 适应模型。 2. 训练数据由 DiT 本身生成,这特别有利于主体驱动生成任务。 3. 研究团队发布了 Subjects200K 数据集,包含超过 200,000 张身份一致的图像,并提供了一个高效的数据合成管道。 4. 论文提供了开源代码,便于其他研究者复现和进一步研究。
  • 相关研究
    1. "Guided Diffusion Models for Image-to-Image Translation" - 探讨了如何在扩散模型中引入条件信息以实现图像到图像的转换。 2. "Cross-Domain Image Generation with Conditional Diffusion Models" - 研究了跨域图像生成中的条件扩散模型。 3. "Unified Multimodal Pre-training with Diffusion Models" - 提出了一个统一的多模态预训练框架,但依赖于复杂的额外编码模块。 4. "Efficient Image Condition Integration in Generative Models" - 讨论了在生成模型中高效整合图像条件的方法,但参数效率较低。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论