An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition

简介

本文研究的是零样本人体骨架动作识别，旨在构建一个模型，可以识别在训练期间未见过的动作类别。以往的研究主要集中在对齐序列的视觉和语义空间分布上，但这些方法仅提取语义特征，忽略了为丰富和细粒度的动作提示设计提供稳健表示空间聚类的重要性。为了缓解骨架序列可用信息不足的问题，我们从信息论的角度设计了一个信息补偿学习框架，通过多粒度语义交互机制来提高零样本动作识别的准确性。受集成学习的启发，我们提出了一种多级对齐（MLA）方法来补偿动作类别的信息。MLA通过多头评分机制将多粒度嵌入与视觉嵌入对齐，以区分语义上相似的动作名称和视觉上相似的动作。此外，我们引入了一种新的损失函数采样方法来获得紧密而稳健的表示。最后，这些多粒度语义嵌入被综合成一个适当的决策面进行分类。在具有挑战性的NTU RGB+D、NTU RGB+D 120和PKU-MMD基准测试中，取得了显著的动作识别性能，并验证了多粒度语义特征有助于区分具有相似视觉特征的动作簇。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决零样本人体骨骼动作识别的问题，即识别训练过程中未见过的动作类别。
关键思路

本文提出了一种信息补偿学习框架，从信息论的角度出发，通过多粒度语义交互机制来提高零样本动作识别的准确性。同时，采用多级对齐（MLA）方法来补偿动作类别的信息不足问题，并引入新的损失函数采样方法来获得紧凑且稳健的表示。
其它亮点

本文的实验结果表明，多粒度语义特征有助于区分具有相似视觉特征的动作簇。本文在NTU RGB+D、NTU RGB+D 120和PKU-MMD数据集上取得了显著的动作识别性能，并提供了开源代码。
相关研究

在这个领域中，最近的相关研究包括：'Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning'、'Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks'、'Deep Learning for Human Motion Analysis: A Review'等。

An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition

提问交流

提问交流