SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders

简介

现有的基于零样本的基于骨架的动作识别方法利用投影网络学习骨架特征和语义嵌入的共享潜在空间。动作识别数据集中固定的类标签和可变的骨架序列的固有不平衡性给对齐带来了重大挑战。为了解决这种不平衡性，我们提出了一种名为SA-DVAE的方法——通过分离变分自编码器实现语义对齐，首先采用特征分离将骨架特征分为两个独立部分——一个是语义相关的，另一个是无关的，以更好地对齐骨架和语义特征。我们通过一对模态特定的变分自编码器实现这个想法，并结合总校正惩罚。我们在三个基准数据集上进行实验：NTU RGB+D、NTU RGB+D 120和PKU-MMD，实验结果表明，SA-DVAE比现有方法产生了更好的性能。代码可在https://github.com/pha123661/SA-DVAE上获得。
图表
解决问题

本论文旨在解决动作识别数据集中动作序列的不平衡性问题，提出了一种基于变分自编码器的语义对齐方法。
关键思路

论文中提出了SA-DVAE方法，通过特征解耦将骨架特征分成两个独立部分，一部分与语义相关，另一部分则不相关，以更好地对齐骨架和语义特征。
其它亮点

论文使用NTU RGB+D、NTU RGB+D 120和PKU-MMD三个基准数据集进行实验，结果表明SA-DVAE方法相比现有方法具有更好的性能。论文提供了开源代码。
相关研究

在最近的相关研究中，也有一些使用变分自编码器的方法来解决动作识别问题，例如Variational Recurrent Neural Network for Action Recognition with Incomplete Skeletons和Skeleton-based Action Recognition with Shift Graph Convolutional Network。

SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders

评论