- 简介Transformer模型已经在许多应用领域,如NLP、分类等方面取得了最先进的成果。但是它们在手势识别任务中的应用还很有限。因此,我们提出了一种新颖的GestFormer架构,用于动态手势识别。这个设计的动机是提出一种资源高效的Transformer模型,因为Transformer的计算成本很高,非常复杂。因此,我们提出使用一种基于池化的令牌混合器PoolFormer,因为它只使用池化层,这是一种非参数层,而不是二次关注。所提出的模型还利用了小波变换的空间不变特征,同时使用多尺度池化选择多尺度特征。此外,门控机制有助于关注手势的细节和上下文信息。与传统的Transformer相比,该模型在动态手势数据集NVidia Dynamic Hand Gesture和Briareo数据集上评估时,具有更少的参数,性能更好。为了证明所提出的模型的有效性,我们已经对单模态和多模态输入进行了实验,例如红外、法线、深度、光流和彩色图像。我们还比较了所提出的GestFormer在资源效率和操作数量方面的优势。源代码可在https://github.com/mallikagarg/GestFormer上获得。
-
- 图表
- 解决问题论文旨在提出一种资源高效的transformer模型GestFormer,用于动态手势识别任务。该模型试图解决transformer模型在手势识别任务中计算复杂度高和模型复杂度大的问题。
- 关键思路GestFormer模型采用基于池化的标记混合器PoolFormer代替二次注意力,从而降低计算复杂度。同时,该模型利用小波变换的空间不变特征,并使用多尺度池化选择多尺度特征。此外,门控机制有助于集中精力处理手势的细节和上下文信息。
- 其它亮点该模型在NVidia Dynamic Hand Gesture和Briareo数据集上进行了实验,证明了其在单模态和多模态输入下的优越性。此外,该模型比传统transformer模型具有更少的参数和更高的资源效率。作者还提供了开源代码。
- 最近的相关研究包括使用transformer模型进行手势识别的其他尝试,如STformer和TransI等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流