STAF: 3D Human Mesh Recovery from Video with Spatio-Temporal Alignment Fusion

2024年01月03日
  • 简介
    最近几年,从单目图像中恢复三维人体网格已经得到了显著的发展。然而,现有模型通常忽略空间和时间信息,这可能导致网格和图像不对齐以及时间上的不连续性。因此,我们提出了一种新颖的时空对齐融合(STAF)模型。作为一种基于视频的模型,它利用基于注意力的时间相干融合模块(TCFM)从人体运动中获取一致性线索。至于空间网格对齐证据,我们通过在特征图上预测网格投影来提取细粒度的局部信息。基于空间特征,我们进一步引入了一个多阶段相邻空间对齐融合模块(SAFM)来增强目标帧的特征表示。除了以上内容,我们还提出了一个平均池化模块(APM),使模型能够关注整个输入序列而不仅仅是目标帧。这种方法可以显著提高从视频中恢复结果的平滑度。在3DPW、MPII3D和H36M上进行的大量实验表明了STAF的优越性。我们实现了精度和平滑度之间的最新权衡。我们的代码和更多视频结果可以在项目页面https://yw0208.github.io/staf/上找到。
  • 图表
  • 解决问题
    论文旨在解决从单眼图像中恢复3D人体网格时存在的空间和时间信息不匹配问题,提出了一种新的Spatio-Temporal Alignment Fusion (STAF)模型。
  • 关键思路
    该模型利用注意力机制的Temporal Coherence Fusion Module (TCFM)从人体运动中获取一致性线索,并通过在特征图上预测网格投影来提取细粒度的本地信息,进一步引入了多阶段相邻的Spatial Alignment Fusion Module (SAFM)来增强目标帧的特征表示。
  • 其它亮点
    论文使用3DPW、MPII3D和H36M等数据集进行了广泛的实验,证明了STAF模型在精度和平滑度之间取得了最佳的平衡。此外,论文提出了一种平均池化模块 (APM),可以显著提高从视频中恢复结果的平滑度。论文的代码和更多视频结果都在项目页面上。
  • 相关研究
    在这个领域中,最近的相关研究包括:DeepSDF、PIFu、HoloPose和DensePose等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论