ReCorD: Reasoning and Correcting Diffusion for HOI Generation

2024年07月25日
  • 简介
    扩散模型通过利用自然语言引导多媒体内容的创建,革命性地改变了图像生成。尽管这种生成模型有了显著的进展,但在描绘详细的人-物体交互方面仍存在挑战,特别是在姿势和物体放置的准确性方面。我们引入了一种名为“推理和修正扩散”(ReCorD)的无需训练的方法来解决这些挑战。我们的模型将潜在扩散模型与视觉语言模型结合起来,以改进生成过程,确保对HOIs进行精确描述。我们提出了一个交互感知推理模块来改善交互的解释,以及一个交互修正模块来精细地调整输出图像,以更精确地生成HOI。通过精细的姿势选择和物体定位过程,ReCorD在生成的图像中实现了更高的保真度,同时有效地减少了计算需求。我们在三个基准测试上进行了全面的实验,展示了在解决文本到图像生成任务方面的显着进展,展示了ReCorD在HOI分类得分、FID和Verb CLIP-Score方面优于现有方法,项目网站可访问https://alberthkyhky.github.io/ReCorD/。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决图像生成中人物-物体交互(HOI)的精细度问题,提出了一种名为Reasoning and Correcting Diffusion(ReCorD)的无需训练的方法。
  • 关键思路
    ReCorD将潜在扩散模型与视觉语言模型相结合,通过交互感知推理模块和交互校正模块,优化生成过程,确保HOI的精确细节。
  • 其它亮点
    实验结果表明,ReCorD在HOI分类得分、FID和Verb CLIP-Score等指标上均优于现有方法,同时在生成图像的保真度和计算效率方面也有显著提高。论文提供了项目网站和开源代码。
  • 相关研究
    最近的相关研究包括:《Generative Adversarial Text-to-Image Synthesis: A Survey》、《Generative Modeling for Text-to-Image Synthesis: A Review》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问