InterFusion: Text-Driven Generation of 3D Human-Object Interaction

2024年03月22日
  • 简介
    在这项研究中,我们致力于以零样本的文本到三维的方式生成三维人物-物体交互(HOI),并解决了两个关键挑战:直接进行文本到三维的方法在HOI中的结果不尽如人意,这主要是由于缺乏配对的文本-交互数据所致,以及同时生成具有复杂空间关系的多个概念的固有难度。为了有效地解决这些问题,我们提出了InterFusion,这是一个专门为HOI生成设计的两阶段框架。InterFusion利用从文本中导出的人体姿态作为几何先验,简化了文本到三维转换过程,并引入了额外的约束以生成准确的物体。在第一阶段,InterFusion从描绘各种交互的合成图像数据集中提取3D人体姿势,随后将这些姿势映射到交互描述中。InterFusion的第二阶段利用了文本到三维生成的最新发展,使得可以产生逼真且高质量的3D HOI场景。这是通过局部-全局优化过程实现的,其中人体和物体的生成分别进行优化,并与整个场景的全局优化一起进行精细调整,确保无缝和上下文一致的集成。我们的实验结果证实,InterFusion在3D HOI生成方面明显优于现有的最先进方法。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决从文本描述生成三维人物-物体交互的问题,同时避免由于缺乏配对文本-交互数据而导致的直接文本到三维的不理想结果。
  • 关键思路
    InterFusion是一个两阶段框架,利用文本生成几何先验进行人体姿势估计,然后利用最新的文本到三维生成技术生成逼真的三维人物-物体交互场景。
  • 其它亮点
    本文的实验结果表明,InterFusion在三维人物-物体交互生成方面显著优于现有的最先进方法。使用了合成图像数据集进行人体姿势提取,并在全局优化过程中对人体和物体进行分别优化和联合优化。
  • 相关研究
    在这个领域中,最近的相关研究包括:'3D Interaction Generation from Descriptions with Contrastive Learning','A Two-Stage Framework for Zero-Shot Human-Object Interaction Detection','3D Human Pose Estimation in the Wild by Adversarial Learning'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问