InterTrack: Tracking Human Object Interaction without Object Templates

2024年08月25日
  • 简介
    本文提出了一种不需要预定义物体形状模板的方法来跟踪人体物体交互。我们将4D跟踪问题分解为逐帧姿态跟踪和规范形状优化。我们首先应用单视图重建方法获得时间不一致的逐帧交互重建。然后,对于人体,我们提出了一种高效的自编码器,可以直接从逐帧重建中预测SMPL顶点,引入时间一致的对应关系。对于物体,我们引入了一个姿态估计器,利用时间信息来预测平滑的物体旋转,以应对遮挡问题。为了训练我们的模型,我们提出了一种方法来生成合成交互视频,并合成了总共10小时的8500个序列的完整3D基准数据。在BEHAVE和InterCap上的实验表明,我们的方法显著优于以前的基于模板的视频跟踪和单帧重建方法。我们提出的合成视频数据集还允许训练可以推广到现实世界视频的基于视频的方法。我们的代码和数据集将公开发布。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决从视频中跟踪人物与物体交互的问题,避免需要预定义物体模板或者单帧图像跟踪缺乏时间连续性的问题。
  • 关键思路
    论文将4D跟踪问题分解为逐帧姿态跟踪和规范形状优化,提出了一个无需物体形状模板的跟踪方法。通过单视角重建方法获取逐帧交互重建结果,然后利用自编码器实现人体SMPL顶点的预测,实现时间上的连续性。同时,引入姿态估计器来预测物体的平滑旋转,以应对遮挡问题。
  • 其它亮点
    论文提出了一个生成合成交互视频数据集的方法,用于训练和测试模型,同时也为其他研究提供了可用的数据集。实验结果表明,该方法在BEHAVE和InterCap数据集上的表现明显优于之前的基于模板的视频跟踪和单帧重建方法。
  • 相关研究
    近年来,许多关于视频跟踪和人体姿态估计的研究已经展开,如《End-to-End Learning of Deformable Mixture of Parts and Deep CNN for Human Pose Estimation》和《Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问