- 简介这篇论文介绍了一种名为DEADiff的方法,旨在解决当前基于编码器的文本到图像模型在转移风格时严重影响文本可控性的问题。该方法采用两种策略:1)解耦参考图像的样式和语义的机制。首先,Q-Formers提取解耦的特征表示,这些特征表示受不同文本描述的指导。然后将它们注入到互相排斥的交叉注意力层的子集中,以获得更好的解缠绕效果。2)一种非重构学习方法。Q-Formers使用成对的图像进行训练,而不是相同的目标,其中参考图像和地面真实图像具有相同的样式或语义。研究结果表明,DEADiff获得了最佳的视觉风格化结果,并在文本到图像模型中天然具有文本可控性和与参考图像相似的风格之间实现了最佳平衡,这在定量和定性方面都有所体现。该论文的项目页面为:https://tianhao-qi.github.io/DEADiff/。
-
- 图表
- 解决问题本论文旨在解决文本到图像模型在转移样式时对文本可控性的影响问题,提出了一种名为DEADiff的方法。
- 关键思路DEADiff使用两种策略解决文本到图像模型在转移样式时对文本可控性的影响问题:1)解耦参考图像的样式和语义,使用Q-Formers提取解耦特征表示,并注入互斥的交叉注意力层的子集以实现更好的解缠绕;2)使用非重构学习方法,使用成对的图像训练Q-Formers,其中参考图像和地面真实图像具有相同的样式或语义。
- 其它亮点DEADiff在视觉样式化结果和文本可控性之间实现了最佳平衡,并在定量和定性上得到了证明。论文提供了一个项目页面,其中包含数据集和开源代码。
- 最近的相关研究包括:1)基于GAN的文本到图像模型;2)使用注意力机制的文本到图像模型;3)使用解耦技术的图像风格转移模型。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流