In-Context LoRA for Diffusion Transformers

2024年10月31日
  • 简介
    最近的研究(arXiv:2410.15027)探索了通过简单地将图像之间的注意力令牌连接起来,使用扩散变换器(DiTs)进行任务无关的图像生成。然而,尽管投入了大量的计算资源,生成的图像质量仍然不尽如人意。在本研究中,我们重新评估并简化了这一框架,假设文本到图像的DiTs本身就具备上下文生成能力,只需要进行最小的微调即可激活这些能力。通过多样化的任务实验,我们定性地证明了现有的文本到图像DiTs可以在不进行任何微调的情况下有效执行上下文生成。基于这一发现,我们提出了一种极其简单的利用DiTs上下文生成能力的流程:(1)连接图像而不是令牌,(2)对多个图像进行联合描述,(3)使用小数据集(例如20~100个样本)进行任务特定的LoRA微调,而不是使用大数据集进行全参数微调。我们将这些模型命名为上下文LoRA(IC-LoRA)。这种方法不需要对原始DiT模型进行任何修改,只需对训练数据进行调整。令人惊讶的是,我们的流程生成了高保真度的图像集,更符合提示内容。虽然在微调数据方面是任务特定的,但我们的框架在架构和流程上仍然是任务无关的,为社区提供了一个强大的工具,并为产品级任务无关生成系统的进一步研究提供了宝贵的见解。我们已在https://github.com/ali-vilab/In-Context-LoRA 上发布了代码、数据和模型。
  • 图表
  • 解决问题
    该论文试图解决的问题是提高基于扩散变压器(DiTs)的任务无关图像生成的质量,特别是在使用现有模型时如何通过最小的调整实现高质量的图像生成。这是一个在当前深度学习和计算机视觉领域内较为新颖的问题,尤其是在探索现有模型的潜力方面。
  • 关键思路
    论文的关键思路是假设现有的文本到图像的DiTs模型已经具备了上下文生成的能力,只需通过少量的数据和特定任务的LoRA调优即可激活这一能力。与之前的研究不同,本研究提出了一种简单但有效的方法,即通过图像拼接、多图联合标注和小样本LoRA调优来实现高保真度的图像生成,而无需对模型进行大的修改。
  • 其它亮点
    论文的亮点包括:1) 提出了一个名为In-Context LoRA (IC-LoRA) 的简单管道,能够显著提高生成图像的质量;2) 实验设计涵盖了多种任务,验证了方法的有效性;3) 使用了小样本数据集进行调优,降低了计算成本;4) 开源了代码、数据和模型,方便其他研究者复现和进一步研究。未来的工作可以进一步探索更广泛的任务和数据集上的应用,以及优化调优过程。
  • 相关研究
    近期在这个领域中,相关的研究还包括:1) arXiv:2410.15027 - 探索了扩散变压器在任务无关图像生成中的应用,但生成质量有待提高;2) arXiv:2408.09123 - 研究了大规模预训练模型在图像生成中的表现;3) arXiv:2405.08765 - 提出了新的调优技术以提高生成模型的性能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论