4DHands: Reconstructing Interactive Hands in 4D with Transformers

向作者提问

NEW

简介

本文介绍了一种名为4DHands的强大方法，可以从单目输入中恢复交互式手部网格及其相对运动。我们的方法解决了以前方法的两个主要限制：缺乏处理各种手部图像输入的统一解决方案和忽略图像中两只手的位置关系。为了克服这些挑战，我们开发了一种基于transformer的架构，采用新颖的tokenization和特征融合策略。具体来说，我们提出了一种关系感知的双手tokenization（RAT）方法，将位置关系信息嵌入手部token中。通过这种方式，我们的网络可以处理单手和双手输入，并明确利用相对手部位置，有助于在真实场景中重建复杂的手部交互。由于这种tokenization指示了两只手的相对关系，因此它还支持更有效的特征融合。为此，我们进一步开发了一个时空交互推理（SIR）模块，用注意力将4D手部token融合，并将其解码为3D手部网格和相对时间运动。我们的方法在多个基准数据集上得到了验证。在野外视频和真实场景上的结果表明，我们的方法对于交互式手部重建具有更优越的性能。更多视频结果可以在项目页面上找到：https://4dhands.github.io。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决单目图像输入下交互手部网格及其相对运动的恢复问题，同时解决了处理不同手部图像输入的一体化解决方案和忽略图像中两只手的位置关系的限制。
关键思路

本文提出了一种基于转换器的架构，其中包括新颖的标记化和特征融合策略。具体而言，作者提出了一种关系感知的双手标记化方法，将位置关系信息嵌入手部标记中，并进一步开发了一个时空交互推理模块，以注意力融合的方式融合4D手部标记，并将其解码为3D手部网格和相对时间运动。
其它亮点

本文的亮点包括提出了一种新颖的方法来解决单目图像输入下交互手部网格及其相对运动的恢复问题，以及处理不同手部图像输入的一体化解决方案和忽略图像中两只手的位置关系的限制。作者在多个基准数据集上验证了该方法的有效性，并展示了其在野外视频和实际场景中的优越性能。此外，作者还提供了项目页面上的更多视频结果。
相关研究

最近的相关研究包括：《End-to-End Hand Mesh Recovery from a Monocular RGB Image》、《MonoHand3D: Real-time 3D Hand Reconstruction from Monocular RGB》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问