THOR: Text to Human-Object Interaction Diffusion via Relation Intervention

2024年03月17日
  • 简介
    本文提出了应对生成文本描述下动态人-物交互(Text2HOI)这一具有挑战性任务的新方法。虽然大多数现有的作品都假设只涉及有限的身体部位或静态的物体,但我们的任务涉及同时解决人类运动的变化、物体形状的多样性和物体运动的语义模糊性。为了解决这个问题,我们提出了一种新颖的基于文本引导的人-物交互扩散模型,即THOR。THOR是一个具有关系干预机制的连贯扩散模型。在每个扩散步骤中,我们启动文本引导的人类和物体运动,然后利用人-物关系来干预物体运动。这种干预增强了人与物之间的时空关系,而以人为中心的交互表示提供了从文本中合成一致运动的额外指导。为了实现更合理、更真实的结果,我们在不同粒度的运动水平引入了交互损失。此外,我们构建了一个名为Text-BEHAVE的Text2HOI数据集,无缝地将文本描述与当前最大的公开3D HOI数据集集成在一起。定量和定性实验均证明了我们提出的模型的有效性。
  • 图表
  • 解决问题
    本文试图解决从文本描述生成动态人物-物体交互(Text2HOI)的挑战性任务,需要同时考虑人类运动的变化、物体形状的多样性和物体运动的语义模糊性。
  • 关键思路
    本文提出了一种新颖的基于文本引导的人物-物体交互扩散模型(THOR),该模型具备关系干预机制,通过扩散步骤中的人物-物体关系干预,增强人物与物体之间的时空关系,并提供额外的指导来从文本中合成一致的动作。
  • 其它亮点
    本文构建了一个无缝集成文本描述和当前最大的公开3D HOI数据集的Text-BEHAVE数据集,实验结果表明了所提出模型的有效性,同时在运动粒度的不同级别引入交互损失,实现了更合理和更真实的结果。
  • 相关研究
    最近在这个领域中,还有一些相关的研究被进行,例如:《Visual Relationship Detection with Language Priors》、《InteractGAN: Learning to Generate Human-Object Interaction》、《HOI Transformer: Towards Interpretable Human-Object Interaction Detection》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论