Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba

2024年07月12日
  • 简介
    从单个RGB图像进行3D手部重建具有挑战性,因为手部具有关节运动、自遮挡和与物体的交互等复杂特性。现有的最先进方法采用基于注意力机制的变换器来学习3D手部姿势和形状,但由于对关节空间关系建模不足,它们无法实现稳健和准确的性能。为了解决这个问题,我们提出了一种新颖的图形引导Mamba框架,名为Hamba,它将图形学习和状态空间建模相结合。我们的核心思想是将Mamba的扫描重新表述为使用少量有效令牌进行3D重建的图形引导双向扫描。这使我们能够学习关节关系和空间序列,从而提高重建性能。具体而言,我们设计了一种新颖的图形引导状态空间(GSS)块,该块学习关节的图形结构关系和空间序列,并且比基于注意力机制的方法使用的令牌少了88.5%。此外,我们使用融合模块将状态空间特征和全局特征进行整合。通过利用GSS块和融合模块,Hamba有效地利用了图形引导状态空间建模特征,并联合考虑全局和局部特征以提高性能。在多个基准测试和野外测试上进行的大量实验表明,Hamba显著优于现有的最先进技术,在FreiHAND上实现了5.3mm的PA-MPVPE和0.992的F@15mm。Hamba目前在3D手部重建的两个具有挑战性的竞赛排行榜上排名第一。代码将在接受后提供。[网站](https://humansensinglab.github.io/Hamba/)。
  • 图表
  • 解决问题
    解决问题:论文旨在解决从单个RGB图像重建3D手的问题,包括关节运动、自遮挡和与物体的交互等挑战。现有的SOTA方法采用基于注意力机制的transformer来学习3D手姿态和形状,但由于对关节空间关系建模不足而无法实现鲁棒和准确的性能。
  • 关键思路
    关键思路:论文提出一种新的图形引导的Mamba框架,名为Hamba,它将图形学习和状态空间建模结合起来,通过少量有效的令牌将Mamba的扫描重新制定为图形引导的双向扫描,用于3D重建。这使我们能够学习关节关系和空间序列,从而提高重建性能。具体来说,设计了一种新的图形引导状态空间(GSS)块,它学习关节的图形结构关系和空间序列,并使用比基于注意力机制的方法少88.5%的令牌。此外,使用融合模块将状态空间特征和全局特征集成在一起。通过利用GSS块和融合模块,Hamba有效地利用了图形引导状态空间建模特征,并联合考虑全局和局部特征以提高性能。
  • 其它亮点
    亮点:论文设计了一种新的图形引导状态空间(GSS)块,它学习关节的图形结构关系和空间序列,并使用比基于注意力机制的方法少88.5%的令牌。在多个基准测试和野外测试中进行了广泛的实验,结果表明Hamba显着优于现有的SOTA,FreiHAND上实现了5.3mm的PA-MPVPE和0.992的F@15mm。Hamba目前在3D手重建的两个挑战性竞赛排行榜上排名第1。代码将在接受后提供。
  • 相关研究
    相关研究:最近在这个领域中,还有一些相关的研究正在进行。例如,一篇名为“End-to-end Hand Mesh Recovery from a Monocular RGB Image”的论文提出了一种基于CNN的框架,用于从单个RGB图像中恢复3D手网格。另一篇名为“Region Ensemble Network: Improving Convolutional Network for Hand Pose Estimation”的论文则提出了一种新的区域集合网络,用于改进卷积网络的手姿态估计。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论