Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment

向作者提问

NEW

简介

学习从2D输入中获取3D人体动作是计算机视觉和计算机图形学领域的基本任务。许多先前的方法通过将动作先验引入学习过程来解决这个本质上模糊的任务。然而，这些方法在定义完整的先验配置或训练强大的模型方面面临困难。在本文中，我们提出了视频到动作生成器（VTM），通过在3D人体动作和2D输入（即视频和2D关键点）之间进行跨模态潜在特征空间对齐，利用运动先验。为了降低建模运动先验的复杂性，我们分别对上下身部分建模。此外，我们将运动数据与一个尺度不变的虚拟骨架对齐，以减轻人体骨骼变化对运动先验的干扰。在AIST++上进行评估，VTM展示了重建来自单目视频的3D人体动作的最新性能。值得注意的是，我们的VTM展现了推广到未见过的视角和野外视频的能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决从2D输入学习3D人体运动的问题，这是计算机视觉和计算机图形学领域的基本任务。之前的方法在学习过程中引入运动先验，但面临定义先验完整配置或训练强大模型的困难。
关键思路

论文提出了Video-to-Motion Generator（VTM），通过3D人体运动和2D输入（即视频和2D关键点）之间的跨模态潜在特征空间对齐来利用运动先验。为了减少建模运动先验的复杂性，我们将运动数据分别建模为上半身和下半身部分。此外，我们将运动数据与一个尺度不变的虚拟骨架对齐，以减轻人体骨骼变化对运动先验的干扰。
其它亮点

论文在AIST ++上进行评估，展示了从单目视频重建3D人体运动的最新性能。值得注意的是，我们的VTM展示了对未见过的视角和野外视频的泛化能力。论文的亮点包括实验设计、使用的数据集和开源代码，以及值得进一步研究的工作。
相关研究

在这个领域中，最近的相关研究包括《Monocular 3D Human Pose Estimation by Generation and Ordinal Ranking》、《3D Human Pose Estimation with Spatial and Temporal Transformers》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问