SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis
解决问题:本篇论文旨在解决文本驱动图像生成中的一个挑战,即如何准确地表达文本中的物体数量等复杂信息,以及如何在不需要额外训练数据的情况下,利用边界框和分割图信息来指导扩散模型的采样过程,从而生成更准确的高分辨率图像。
关键思路:本文提出了一种新颖的指导方法,利用边界框和分割图信息来指导扩散模型的采样过程,在采样过程中通过一种新的损失函数,利用CLIP嵌入的语义特征和几何约束来指导模型,从而生成更准确的高分辨率图像。本文所提出的方法在场景图到图像和基于文本的扩散模型等各项指标上均超过了现有的方法,具有较强的创新性。
其他亮点:本文使用了两个公共基准数据集进行实验,实验结果表明,本文所提出的方法在图像生成方面具有较高的性能,并且不需要额外的训练数据。此外,本文还结合了边界框和分割图信息,为文本驱动图像生成提供了新的思路和方向,值得进一步研究。
关于作者:本文的主要作者是来自德国图宾根大学的Azade Farshad和Björn Ommer等人,他们在计算机视觉领域有着丰富的研究经验。其中Björn Ommer曾在2016年发表了题为"Learning to Segment Every Thing"的论文,提出了一种全新的图像分割方法,该方法可以同时对图像中的多个目标进行分割,具有较高的实用价值。
相关研究:近期其他相关的研究包括:
- "Generative Scene Graph Networks",作者为Justin Johnson等人,来自斯坦福大学。
- "Text-to-Image Generation Grounded by Fine-Grained User Attention",作者为Xin Wang等人,来自香港中文大学。
- "Semantic Image Synthesis with Spatially-Adaptive Normalization",作者为Taesung Park等人,来自斯坦福大学。
论文摘要:本文介绍了一种名为SceneGenie的生成模型,该模型利用场景图和CLIP嵌入信息对图像进行生成,解决了传统条件图像生成模型无法精确表示文本提示中特定对象实例数量等复杂文本提示的问题。该模型在推断过程中利用边界框和分割地图信息进行采样,通过一种新的损失函数指导模型,使其生成高分辨率、准确表现场景的图像。作者将文本提示结构化为场景图,并使用CLIP嵌入对节点进行丰富,以获得边界框和分割地图信息。实验表明,该模型在两个公共基准测试中表现优异,超过了基于场景图和基于文本的扩散模型在各种指标上的表现。这表明,在扩散模型的采样过程中引入边界框和分割地图的指导可以更准确地生成文本到图像。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢