GestFormer: Multiscale Wavelet Pooling Transformer Network for Dynamic Hand Gesture Recognition

2024年05月18日
  • 简介
    Transformer模型已经在许多应用领域,如NLP、分类等方面取得了最先进的成果。但是它们在手势识别任务中的应用还很有限。因此,我们提出了一种新颖的GestFormer架构,用于动态手势识别。这个设计的动机是提出一种资源高效的Transformer模型,因为Transformer的计算成本很高,非常复杂。因此,我们提出使用一种基于池化的令牌混合器PoolFormer,因为它只使用池化层,这是一种非参数层,而不是二次关注。所提出的模型还利用了小波变换的空间不变特征,同时使用多尺度池化选择多尺度特征。此外,门控机制有助于关注手势的细节和上下文信息。与传统的Transformer相比,该模型在动态手势数据集NVidia Dynamic Hand Gesture和Briareo数据集上评估时,具有更少的参数,性能更好。为了证明所提出的模型的有效性,我们已经对单模态和多模态输入进行了实验,例如红外、法线、深度、光流和彩色图像。我们还比较了所提出的GestFormer在资源效率和操作数量方面的优势。源代码可在https://github.com/mallikagarg/GestFormer上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在提出一种资源高效的transformer模型GestFormer,用于动态手势识别任务。该模型试图解决transformer模型在手势识别任务中计算复杂度高和模型复杂度大的问题。
  • 关键思路
    GestFormer模型采用基于池化的标记混合器PoolFormer代替二次注意力,从而降低计算复杂度。同时,该模型利用小波变换的空间不变特征,并使用多尺度池化选择多尺度特征。此外,门控机制有助于集中精力处理手势的细节和上下文信息。
  • 其它亮点
    该模型在NVidia Dynamic Hand Gesture和Briareo数据集上进行了实验,证明了其在单模态和多模态输入下的优越性。此外,该模型比传统transformer模型具有更少的参数和更高的资源效率。作者还提供了开源代码。
  • 相关研究
    最近的相关研究包括使用transformer模型进行手势识别的其他尝试,如STformer和TransI等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问