Dynamic Spatial-Temporal Aggregation for Skeleton-Aware Sign Language Recognition

简介

鉴于其不受背景干扰和较低的计算要求，基于骨架的手语识别（SLR）已经变得越来越受欢迎。目前的方法利用空间图模块和时间模块分别捕捉空间和时间特征。然而，它们的空间图模块通常建立在固定的图结构上，如图卷积网络或单个可学习的图，只能部分探索联合关系。此外，使用简单的时间卷积核来捕捉时间信息，可能无法完全捕捉不同手语者的复杂运动模式。为了克服这些限制，我们提出了一个新的空间架构，由两个并行分支组成，分别建立输入敏感的联合关系和结合特定领域知识进行识别。这两个分支后面跟着一个汇聚过程，以区分重要的关节连接。然后，我们提出了一个新的时间模块来模拟多尺度时间信息，以捕捉复杂的人体动态。我们的方法在四个大规模SLR基准测试中实现了最先进的准确性。此外，我们的方法在大多数情况下表现出优于基于RGB的方法的准确性，同时需要更少的计算资源，带来更好的准确性-计算效率平衡。代码可在https://github.com/hulianyuyy/DSTA-SLR上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决手语识别中空间关系和时间信息建模的问题，并提出了一种新的框架来提高准确性和降低计算成本。
关键思路

本论文提出了一个新的空间架构，包括两个并行的分支来建立输入敏感的关节关系，并分别整合特定领域知识以进行识别。然后，这两个分支经过聚合处理以区分重要的关节连接。同时，还提出了一种新的时间模块来建模多尺度时间信息以捕捉复杂的人体动态。
其它亮点

本论文在四个大型手语识别基准测试中取得了最新的最高准确度，而且在大多数情况下比基于RGB的方法具有更好的准确性-计算资源平衡。此外，该论文的代码已经开源。
相关研究

在这个领域中，最近的相关研究包括“Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition”和“Multi-Task Learning for Sign Language Recognition with Spatial Temporal Attention”。

Dynamic Spatial-Temporal Aggregation for Skeleton-Aware Sign Language Recognition

提问交流

提问交流