- 简介我们解决了从单张图像回归3D人体姿势和形状的问题,重点关注3D精度。目前最好的方法利用大规模的3D伪地面真实数据(p-GT)和2D关键点数据集,从而实现了强大的性能。使用这种方法,我们观察到一个自相矛盾的现象,即随着2D精度的提高,3D姿势的准确性却下降了。这是由于p-GT中存在偏差以及使用了近似的相机投影模型所导致的。我们量化了当前相机模型引入的误差,并表明精确拟合2D关键点和p-GT会导致不正确的3D姿势。我们的分析定义了在其中最小化2D和p-GT损失是有害的无效距离。我们使用这个定义来制定一个新的损失函数阈值自适应损失缩放(TALS),它惩罚了大的2D和p-GT损失,但不惩罚较小的损失。使用这样的损失函数,有许多3D姿势可以同样解释2D证据。为了减少这种歧义,我们需要一个有效的人体姿势先验知识,但这样的先验知识可能会引入不必要的偏差。为了解决这个问题,我们利用人体姿势的标记表示,并将问题重新制定为标记预测。这将估计的姿势限制在有效姿势空间内,从而有效地提供了一个均匀的先验。在EMDB和3DPW数据集上进行的大量实验表明,我们重新制定的关键点损失和标记化使我们能够在野外数据上进行训练,同时提高了3D精度,超过了现有技术水平。我们的模型和代码可供研究使用,网址为https://tokenhmr.is.tue.mpg.de。
- 图表
- 解决问题从单张图片中回归3D人体姿态和形状,提高3D姿态准确性,并解决当前方法中2D准确性提高反而导致3D准确性下降的问题。
- 关键思路提出Threshold-Adaptive Loss Scaling(TALS)损失函数和基于token的人体姿态表示,来解决2D准确性提高导致3D准确性下降的问题,并提高3D姿态准确性。
- 其它亮点使用大量的3D伪标签和2D关键点数据集,提出了TALS损失函数,能够减少2D和伪标签的错误对3D姿态的影响;使用基于token的人体姿态表示,将问题转化为token预测,从而提高了3D姿态的准确性;在EMDB和3DPW数据集上进行了实验,超过了当前最先进的方法,并提供了开源代码。
- 在这个领域中,最近的相关研究包括:《3D人体姿态估计综述》、《End-to-end Recovery of Human Shape and Pose》、《3D Human Pose Estimation in the Wild by Adversarial Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢