Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization

2024年03月28日
  • 简介
    个性化生成范例使设计师能够通过调整或适应预训练的文本到图像模型来自定义视觉知识产权。最近的研究探索了同时定制内容和详细视觉风格外观的方法。然而,这些现有方法通常生成内容和风格交织在一起的图像。在这项研究中,我们从参数空间构建的角度重新考虑了内容和风格概念的定制。与利用共享参数空间进行内容和风格的现有方法不同,我们提出了一种学习框架,将参数空间分离,以促进内容和风格的个别学习,从而实现内容和风格的分离。为了实现这个目标,我们引入了“部分可学习投影”(PLP)矩阵,将原始适配器分成了不同的子参数空间。我们提出了基于PLP的“断开再连接”定制学习流程,这是简单而有效的。我们将原始适配器分成“上投影”和“下投影”,在分离的适配器中使用相应的文本提示单独训练内容和风格PLP,并通过采用多对应投影学习策略来保持泛化。基于分开训练内容和风格的适配器,我们通过重构内容和风格PLP矩阵来制作实体参数空间,然后微调组合适配器以生成具有所需外观的目标对象。包括纹理、材料和艺术风格在内的各种风格的实验证明,我们的方法在内容-风格-提示对齐方面优于最先进的单/多个概念学习流程。
  • 图表
  • 解决问题
    本文尝试从参数空间构建的角度重新考虑内容和风格概念的定制化,以实现内容和风格的分离,从而解决了现有方法中内容和风格纠缠在一起的问题。
  • 关键思路
    本文提出了“部分可学习投影”(PLP)矩阵来将原始适配器分解为分离的子参数空间,以便分别学习内容和风格,从而实现内容和风格的分离。作者提出了基于PLP的“断点制造”定制化学习流程,将原始适配器分解为“向上投影”和“向下投影”,使用对应的文本提示在单独的适配器中分别训练内容和风格PLP,并通过采用多对应投影学习策略来保持泛化。
  • 其它亮点
    本文的实验结果表明,该方法在各种风格(包括纹理、材质和艺术风格)上的表现优于现有的单/多概念学习流程,从而实现了内容-风格-提示对齐。实验使用了多个数据集,包括COCO、Wikiart、DTD等,并且代码已经开源。该方法可以为个性化生成提供更好的解决方案。
  • 相关研究
    最近的相关研究包括:《A Closed-form Solution to Photorealistic Image Stylization》、《Exploring the structure of a real-time, arbitrary neural artistic stylization network》、《Controlling Perceptual Factors in Neural Style Transfer》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论