- 简介尽管大型文本到图像扩散模型具有出色的生成能力,但与熟练但粗心的艺术家一样,它们经常难以准确地描绘对象之间的视觉关系。通过仔细分析,我们发现这个问题源于文本编码器的错位,它难以解释特定的关系并区分相关对象的逻辑顺序。为了解决这个问题,我们引入了一项新的任务,称为关系矫正,旨在改进模型以准确地表示其最初无法生成的给定关系。为了解决这个问题,我们提出了一种创新的解决方案,利用异构图卷积网络(HGCN)。它模拟输入提示中关系术语和相应对象之间的方向关系。具体而言,我们在一对具有相同关系词但对象顺序相反的提示上优化HGCN,辅以一些参考图像。轻量级的HGCN调整文本编码器生成的文本嵌入,确保在嵌入空间中准确反映文本关系。关键是,我们的方法保留了文本编码器和扩散模型的参数,保持了模型在无关描述上的稳健性能。我们在一个新的多样化关系数据集上验证了我们的方法,展示了在生成具有精确视觉关系的图像方面的定量和定性增强。项目页面:https://wuyinwei-hah.github.io/rrnet.github.io/。
- 图表
- 解决问题论文旨在解决大型文本到图像扩散模型在准确描述物体之间的视觉关系方面存在的问题。这是一个新问题。
- 关键思路论文提出了一个名为Relation Rectification的新任务,利用异构图卷积网络(HGCN)来调整文本编码器生成的文本嵌入,确保在嵌入空间中准确反映文本关系。这个方法保留了文本编码器和扩散模型的参数,保持了模型在不相关描述方面的鲁棒性。
- 其它亮点论文使用一个新的任务来解决大型文本到图像扩散模型在描述物体之间的视觉关系方面存在的问题。他们提出的方法使用了异构图卷积网络(HGCN)来调整文本编码器生成的文本嵌入,以确保准确反映文本关系。实验结果表明,他们的方法在生成具有精确视觉关系的图像方面取得了显著的定量和定性改进。
- 最近的相关研究包括:1)Image Generation with Spatially-Adaptive Normalization;2)Generative Adversarial Networks;3)Learning to Generate Images with Perceptual Similarity Metrics;4)Generative Models for Effective ML on Private, Decentralized Datasets。
沙发等你来抢
去评论
评论
沙发等你来抢