Self-Supervised Skeleton Action Representation Learning: A Benchmark and Beyond

简介

自监督学习（SSL）旨在从未标记的数据中学习有意义的先验表示，已被证明对于节省标签的基于骨骼的动作理解非常有效。与图像领域不同，骨骼数据具有更稀疏的空间结构和多样的表示形式，缺乏背景线索和额外的时间维度，这为空间 - 时间运动表示学习的预文本任务设计提出了新的挑战。最近，许多努力已经为基于骨骼的SSL做出了贡献，并取得了显着进展。然而，还缺乏系统和全面的回顾。在本文中，我们首次对基于骨骼的自监督动作表示学习进行了全面调查，将各种文献按照其预训练预文本任务方法学进行组织。根据基于上下文、生成学习和对比学习方法的分类法，我们对现有工作进行了彻底的回顾和基准测试，并为未来可能的方向提供了启示。我们的调查表明，大多数SSL工作依赖于单一范例，学习单一级别的表示，并仅在动作识别任务上进行评估，这使得骨骼SSL模型的泛化能力不足。因此，我们进一步提出了一种新颖有效的骨骼SSL方法，该方法整合了多个预文本任务，共同学习不同粒度的多功能表示，从而大大提高了不同下游任务的泛化能力。在三个大规模数据集下的广泛实验表明，所提出的方法在识别、检索、检测和少样本学习等各种下游任务中均实现了卓越的泛化性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在综述自监督学习在骨骼动作识别方面的应用，探究当前存在的问题和挑战，并提出新的方法以提高模型的泛化能力。
关键思路

论文提出了一种新的自监督学习方法，该方法整合了多种预训练任务以联合学习不同粒度的表示，从而提高骨骼自监督学习模型的泛化能力。
其它亮点

论文对当前自监督骨骼动作识别的研究进行了全面综述，将其分为基于上下文、生成式学习和对比学习三种方法，并提出了一种新的方法以提高模型的泛化能力。论文使用了三个大型数据集进行实验，并证明了所提出的方法在不同下游任务中均取得了优异的泛化性能。
相关研究

近期的相关研究包括：《Self-Supervised Learning for Skeleton-Based Action Recognition Using Spatio-Temporal and Viewpoint Invariance》、《Self-Supervised Learning of Skeleton-Based Representations for Action Recognition》等。

Self-Supervised Skeleton Action Representation Learning: A Benchmark and Beyond

提问交流

提问交流