PostoMETRO: Pose Token Enhanced Mesh Transformer for Robust 3D Human Mesh Recovery

向作者提问

NEW

简介

随着最近单张图像人体网格恢复技术的进步，人们越来越关注如何在保持整体模型准确性的同时，在某些极端情况下（如遮挡）提高其性能。虽然在遮挡下获取准确的三维人体姿势注释是具有挑战性的，但仍然有丰富而精确的二维姿势注释可以利用。然而，现有的工作大多集中在直接利用二维姿势坐标来估计三维姿势和网格。本文提出了PostoMETRO（$\textbf{Pos}$e $\textbf{to}$ken增强$\textbf{ME}$sh $\textbf{TR}$ansf$\textbf{O}$rmer），它以标记方式将抗遮挡的二维姿势表示集成到变压器中。通过使用专门的姿势标记器，我们将二维姿势数据高效地压缩为紧凑的姿势标记序列，并与图像标记一起输入变压器。这个过程不仅确保了图像纹理的丰富描绘，还促进了姿势和图像信息的强大整合。随后，这些组合标记被顶点和关节标记查询，以解码网格顶点和人体关节的三维坐标。在强大的姿势标记表示和有效的组合的帮助下，我们能够在极端情况下（如遮挡）产生更精确的三维坐标。在标准和遮挡特定的基准测试中的实验表明了PostoMETRO的有效性。定性结果进一步说明了二维姿势如何帮助三维重建。代码将会公开发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图在保持模型准确性的同时，提高单图像人体网格恢复在遮挡等极端情况下的性能。虽然获取准确的带遮挡三维人体姿势注释具有挑战性，但仍存在丰富的精确二维姿势注释数据可以利用。
关键思路

本文提出了PostoMETRO，将鲁棒的二维姿势表示集成到transformer中，通过姿势tokenizer有效地将二维姿势数据压缩为紧凑的姿势token序列，并将其与图像token一起馈送到transformer中。这种方法不仅保证了图像质地的丰富描述，还促进了姿势和图像信息的强大整合。通过姿势token表示和有效的组合，我们能够在极端情况下（如遮挡）产生更精确的三维坐标。
其它亮点

本文的亮点包括：1. 提出了PostoMETRO，将二维姿势表示集成到transformer中；2. 使用专门的姿势tokenizer有效地将二维姿势数据压缩为紧凑的姿势token序列；3. 实验结果表明，PostoMETRO在标准和遮挡特定基准测试中均表现出良好的效果；4. 提供了开源代码。
相关研究

最近在这个领域中，还有一些相关的研究，例如：1. DeepPoseKit: A Software Suite for Pose Estimation with Deep Learning；2. Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop；3. Monocular 3D Human Pose Estimation by Generation and Ordinal Ranking；4. End-to-end Recovery of Human Shape and Pose；5. HoloPose: Holistic 3D Human Reconstruction In-The-Wild。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问