GestFormer: Multiscale Wavelet Pooling Transformer Network for Dynamic Hand Gesture Recognition

简介

Transformer模型已经在许多应用领域，如NLP、分类等方面取得了最先进的成果。但是它们在手势识别任务中的应用还很有限。因此，我们提出了一种新颖的GestFormer架构，用于动态手势识别。这个设计的动机是提出一种资源高效的Transformer模型，因为Transformer的计算成本很高，非常复杂。因此，我们提出使用一种基于池化的令牌混合器PoolFormer，因为它只使用池化层，这是一种非参数层，而不是二次关注。所提出的模型还利用了小波变换的空间不变特征，同时使用多尺度池化选择多尺度特征。此外，门控机制有助于关注手势的细节和上下文信息。与传统的Transformer相比，该模型在动态手势数据集NVidia Dynamic Hand Gesture和Briareo数据集上评估时，具有更少的参数，性能更好。为了证明所提出的模型的有效性，我们已经对单模态和多模态输入进行了实验，例如红外、法线、深度、光流和彩色图像。我们还比较了所提出的GestFormer在资源效率和操作数量方面的优势。源代码可在https://github.com/mallikagarg/GestFormer上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提出一种资源高效的transformer模型GestFormer，用于动态手势识别任务。该模型试图解决transformer模型在手势识别任务中计算复杂度高和模型复杂度大的问题。
关键思路

GestFormer模型采用基于池化的标记混合器PoolFormer代替二次注意力，从而降低计算复杂度。同时，该模型利用小波变换的空间不变特征，并使用多尺度池化选择多尺度特征。此外，门控机制有助于集中精力处理手势的细节和上下文信息。
其它亮点

该模型在NVidia Dynamic Hand Gesture和Briareo数据集上进行了实验，证明了其在单模态和多模态输入下的优越性。此外，该模型比传统transformer模型具有更少的参数和更高的资源效率。作者还提供了开源代码。
相关研究

最近的相关研究包括使用transformer模型进行手势识别的其他尝试，如STformer和TransI等。

GestFormer: Multiscale Wavelet Pooling Transformer Network for Dynamic Hand Gesture Recognition

提问交流

提问交流