Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction

2024年03月31日
  • 简介
    本文介绍了第一种文本引导的方法,用于生成3D手-物交互序列。主要挑战来自于缺乏标记数据,现有的地面真实数据集在交互类型和物体类别上都无法推广,这限制了模型从文本提示中对具有正确物理含义(例如接触和语义)的多样化3D手-物交互进行建模。为了解决这个问题,我们提出将交互生成任务分解为两个子任务:手-物接触生成和手-物运动生成。对于接触生成,基于VAE的网络以文本和物体网格作为输入,并生成手和物体表面之间在交互过程中接触的概率。该网络学习了各种不同物体的本地几何结构,独立于物体类别,因此适用于一般物体。对于运动生成,基于Transformer的扩散模型利用这个3D接触图作为强先验,通过从增强标记数据集中学习文本标签来生成具有物理合理性的手-物运动。最后,我们还引入了一个手部细化模块,以最小化物体表面和手关节之间的距离,以改善物体-手接触的时间稳定性并抑制穿透伪影。在实验中,我们证明了我们的方法相对于其他基线方法可以生成更逼真和多样化的交互。我们还展示了我们的方法适用于未知物体。我们将发布我们的模型和新标记的数据作为未来研究的强大基础。代码和数据可在以下网址获得:https://github.com/JunukCha/Text2HOI。
  • 图表
  • 解决问题
    解决问题:本文旨在介绍第一个文本引导的手物交互序列生成的工作。由于现有的标注数据缺乏泛化性,因此难以对不同类型的手物交互进行建模,本文试图解决这个问题。
  • 关键思路
    关键思路:本文将交互生成任务分解为两个子任务:手物接触生成和手物运动生成。对于接触生成,使用基于VAE的网络生成手和物体表面之间接触的概率;对于运动生成,使用基于Transformer的扩散模型利用3D接触图作为先验,根据文本提示生成合理的手物运动。同时,引入手部细化模块以提高接触的时间稳定性。
  • 其它亮点
    其他亮点:本文的方法相比其他基线方法生成的交互更加真实和多样化,并且适用于未知的物体。实验表明,本文的方法比其他基线方法效果更好。此外,作者还公开了代码和数据集,为未来的研究提供了强有力的基础。
  • 相关研究
    相关研究:最近的相关研究包括基于文本的图像生成、3D物体生成和手部姿态估计等方向。例如,文献[1]提出了一种基于文本的3D形状生成方法,文献[2]提出了一种基于文本的3D物体生成方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论