pOps: Photo-Inspired Diffusion Operators

2024年06月03日
  • 简介
    文本引导的图像生成可以通过文字描述创建视觉内容。然而,某些视觉概念无法仅通过语言有效地传达。这引发了人们对利用CLIP图像嵌入空间进行更加视觉化任务的兴趣,例如IP-Adapter。有趣的是,已经证明了CLIP图像嵌入空间具有语义意义,该空间内的线性操作会产生语义上有意义的结果。然而,这些操作的具体含义在不同的图像之间可能会变得不可预测。为了利用这种潜力,我们引入了pOps,这是一个在CLIP图像嵌入上直接训练特定语义操作符的框架。每个pOps操作符都建立在预训练的Diffusion Prior模型之上。虽然Diffusion Prior模型最初是用于将文本嵌入和图像嵌入进行映射,但我们证明它可以调整以适应新的输入条件,从而产生扩散操作符。直接在图像嵌入上工作不仅提高了我们学习语义操作的能力,还允许我们在需要时直接使用文本CLIP损失作为额外的监督。我们展示了pOps可以用于学习具有不同语义含义的各种照片灵感操作符,突出了我们提出的方法的语义多样性和潜力。
  • 图表
  • 解决问题
    本论文旨在解决文本描述无法有效传达某些视觉概念的问题,通过在CLIP图像嵌入空间中训练特定的语义运算符,提高视觉任务的效果。
  • 关键思路
    pOps框架通过在预训练的Diffusion Prior模型上训练特定的语义运算符,直接在CLIP图像嵌入空间中工作,从而提高了学习语义运算符的能力,同时允许在需要时直接使用文本CLIP损失作为额外的监督。
  • 其它亮点
    论文提出的pOps框架可以用于学习各种具有不同语义含义的受照片启发的运算符,突出了我们所提出的方法的语义多样性和潜力。实验结果表明,pOps框架比以前的方法表现更好。
  • 相关研究
    最近的相关研究包括:IP-Adapter、CLIP等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论