- 简介本文介绍了一种基于骨架的零样本动作识别方法,旨在通过已知基于骨架的动作的先验知识和已知和未知类别共享的语义描述空间来识别未知的人类动作。然而,以往的研究侧重于在粗粒度水平上建立已知骨架表示空间和语义描述空间之间的桥梁,以识别未知的动作类别,忽略了这两个空间在细粒度上的对齐,导致在区分高相似度的动作类别方面表现不佳。为了解决这些挑战,本文提出了一种新的方法,通过侧面信息和双提示学习,实现了骨架零样本动作识别(STAR)在细粒度水平上的识别。具体来说,1)我们基于拓扑结构将骨架分解成几个部分,并引入多部分人体运动描述的侧面信息,以在细粒度水平上对骨架和语义空间进行对齐;2)我们设计了视觉属性和语义部分提示,以提高骨架空间内的类内紧密度和语义空间内的类间可分性,以区分高相似度的动作。广泛的实验表明,我们的方法在NTU RGB+D、NTU RGB+D 120和PKU-MMD数据集的ZSL和GZSL设置中均达到了最先进的性能。
-
- 图表
- 解决问题本论文旨在解决骨架基础零样本动作识别中存在的问题,即忽略了精细级别上骨架表示空间和语义描述空间之间的对齐,导致在区分高相似度动作类别时表现不佳。
- 关键思路论文提出了一种基于侧信息和双提示学习的骨架基础零样本动作识别方法,通过将骨架分解为多个部分并引入侧信息,实现了骨架和语义空间在精细级别上的对齐。同时,设计了视觉属性和语义部分提示,以提高骨架空间内类内紧凑性和语义空间内类间可分性,从而区分高相似度动作类别。
- 其它亮点论文在NTU RGB+D、NTU RGB+D 120和PKU-MMD数据集上进行了广泛实验,并取得了最先进的ZSL和GZSL性能。值得关注的是,该方法在高相似度动作类别的区分上表现出色,具有较好的泛化能力。此外,论文还提供了开源代码。
- 最近在这个领域中,一些相关的研究包括:1. Zero-Shot Action Recognition via Vision-Language Navigation;2. Skeleton-Based Action Recognition with Multi-Stream Adaptive Graph Convolutional Networks;3. Zero-Shot Learning of Human-Object Interaction with Disentangled Spatial Attention.
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流