InterFusion: Text-Driven Generation of 3D Human-Object Interaction

简介

在这项研究中，我们致力于以零样本的文本到三维的方式生成三维人物-物体交互（HOI），并解决了两个关键挑战：直接进行文本到三维的方法在HOI中的结果不尽如人意，这主要是由于缺乏配对的文本-交互数据所致，以及同时生成具有复杂空间关系的多个概念的固有难度。为了有效地解决这些问题，我们提出了InterFusion，这是一个专门为HOI生成设计的两阶段框架。InterFusion利用从文本中导出的人体姿态作为几何先验，简化了文本到三维转换过程，并引入了额外的约束以生成准确的物体。在第一阶段，InterFusion从描绘各种交互的合成图像数据集中提取3D人体姿势，随后将这些姿势映射到交互描述中。InterFusion的第二阶段利用了文本到三维生成的最新发展，使得可以产生逼真且高质量的3D HOI场景。这是通过局部-全局优化过程实现的，其中人体和物体的生成分别进行优化，并与整个场景的全局优化一起进行精细调整，确保无缝和上下文一致的集成。我们的实验结果证实，InterFusion在3D HOI生成方面明显优于现有的最先进方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决从文本描述生成三维人物-物体交互的问题，同时避免由于缺乏配对文本-交互数据而导致的直接文本到三维的不理想结果。
关键思路

InterFusion是一个两阶段框架，利用文本生成几何先验进行人体姿势估计，然后利用最新的文本到三维生成技术生成逼真的三维人物-物体交互场景。
其它亮点

本文的实验结果表明，InterFusion在三维人物-物体交互生成方面显著优于现有的最先进方法。使用了合成图像数据集进行人体姿势提取，并在全局优化过程中对人体和物体进行分别优化和联合优化。
相关研究

在这个领域中，最近的相关研究包括：'3D Interaction Generation from Descriptions with Contrastive Learning'，'A Two-Stage Framework for Zero-Shot Human-Object Interaction Detection'，'3D Human Pose Estimation in the Wild by Adversarial Learning'等。

InterFusion: Text-Driven Generation of 3D Human-Object Interaction

提问交流

提问交流