ReCorD: Reasoning and Correcting Diffusion for HOI Generation

简介

扩散模型通过利用自然语言引导多媒体内容的创建，革命性地改变了图像生成。尽管这种生成模型有了显著的进展，但在描绘详细的人-物体交互方面仍存在挑战，特别是在姿势和物体放置的准确性方面。我们引入了一种名为“推理和修正扩散”（ReCorD）的无需训练的方法来解决这些挑战。我们的模型将潜在扩散模型与视觉语言模型结合起来，以改进生成过程，确保对HOIs进行精确描述。我们提出了一个交互感知推理模块来改善交互的解释，以及一个交互修正模块来精细地调整输出图像，以更精确地生成HOI。通过精细的姿势选择和物体定位过程，ReCorD在生成的图像中实现了更高的保真度，同时有效地减少了计算需求。我们在三个基准测试上进行了全面的实验，展示了在解决文本到图像生成任务方面的显着进展，展示了ReCorD在HOI分类得分、FID和Verb CLIP-Score方面优于现有方法，项目网站可访问https://alberthkyhky.github.io/ReCorD/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决图像生成中人物-物体交互（HOI）的精细度问题，提出了一种名为Reasoning and Correcting Diffusion（ReCorD）的无需训练的方法。
关键思路

ReCorD将潜在扩散模型与视觉语言模型相结合，通过交互感知推理模块和交互校正模块，优化生成过程，确保HOI的精确细节。
其它亮点

实验结果表明，ReCorD在HOI分类得分、FID和Verb CLIP-Score等指标上均优于现有方法，同时在生成图像的保真度和计算效率方面也有显著提高。论文提供了项目网站和开源代码。
相关研究

最近的相关研究包括：《Generative Adversarial Text-to-Image Synthesis: A Survey》、《Generative Modeling for Text-to-Image Synthesis: A Review》等。

ReCorD: Reasoning and Correcting Diffusion for HOI Generation

提问交流

提问交流