- 简介表达性人体姿态和形状估计(EHPS)统一了身体、手部和面部的动作捕捉,具有广泛的应用前景。尽管已经取得了一些令人鼓舞的进展,但目前最先进的方法主要集中在受限数据集上的创新架构设计。在这项工作中,我们研究了扩展EHPS以构建一系列通用基础模型的影响。 1) 在数据扩展方面,我们对40个EHPS数据集进行了系统性的研究,这些数据集涵盖了广泛的场景,而单一数据集训练的模型无法处理这些场景。更重要的是,通过从广泛的基准测试过程中获得的见解,我们优化了训练方案,并选择了能够显著提升EHPS能力的数据集。最终,在使用来自不同数据源的1000万个训练实例时,我们达到了收益递减的效果。 2) 在模型扩展方面,我们利用视觉变换器(最高至ViT-Huge作为骨干网络),研究了EHPS中模型规模的扩展规律。为了排除算法设计的影响,我们的实验基于两种极简架构:SMPLer-X,它包含一个用于手部和面部定位的中间步骤;以及更简化的SMPLest-X,该版本将网络简化到最基本的部分,突出了在捕捉关节手部动作方面的显著进步。借助大数据和大模型,基础模型在各种测试基准上表现出色,并且在未见过的环境中也表现出优秀的迁移能力。此外,我们的微调策略使通用模型转变为专用模型,从而进一步提升了性能。值得注意的是,我们的基础模型在包括AGORA、UBody、EgoBody以及我们提出的SynHand数据集在内的七个基准上,始终提供最先进水平的结果,后者用于全面的手部评估。(代码可在以下链接获取:https://github.com/wqyin/SMPLest-X)。
- 图表
- 解决问题该论文试图解决表达性人体姿态和形状估计(EHPS)的问题,特别是统一身体、手部和面部的动作捕捉。尽管目前的方法在特定数据集上取得了进展,但它们的应用范围有限,无法处理多样化场景。这是一个需要进一步探索的问题,旨在通过扩大数据规模和模型大小来提升EHPS的泛化能力和性能。
- 关键思路关键思路是通过大规模数据集和大型模型来构建通用的基础模型,以提高EHPS的能力。论文通过系统地研究40个EHPS数据集,并优化训练方案,最终达到了10M训练实例的规模。此外,作者使用了Vision Transformers(如ViT-Huge)来研究模型规模对EHPS的影响,并设计了两种极简架构SMPLer-X和SMPLest-X,以排除算法设计的影响并突出手部捕捉的进步。这一方法相比现有研究更具创新性,因为它不仅关注模型架构的设计,还强调了数据和模型规模的重要性。
- 其它亮点论文的主要亮点包括:1) 系统性地研究了40个EHPS数据集,涵盖了广泛的应用场景;2) 使用大规模数据集(10M实例)和大型模型(如ViT-Huge),展示了数据和模型规模对性能的显著影响;3) 提出了两种极简架构SMPLer-X和SMPLest-X,简化了网络结构并提高了手部捕捉的精度;4) 在七个基准测试中(如AGORA、UBody、EgoBody等)达到了SOTA性能;5) 提供了开源代码(https://github.com/wqyin/SMPLest-X)。未来可以继续深入研究如何进一步优化模型架构和数据集的选择。
- 最近在这个领域相关的研究包括:1)《Expressive Body Capture: 3D Hands, Face, and Body from a Single Image》;2)《End-to-End Recovery of Human Shape and Pose》;3)《Learning to Estimate 3D Hand Pose from Single RGB Images》;4)《A Multi-view Parametric Hand Model for Accurate 3D Hand Pose Estimation》。这些研究主要集中在改进模型架构或特定任务上的表现,而本论文则更侧重于通过大规模数据和模型来提升整体性能。
沙发等你来抢
去评论
评论
沙发等你来抢