- 简介手势是人类交互中固有的,通常与语言相辅相成,在面对面交流中形成多模式通信系统。手势分析的一个重要任务是检测手势的开始和结束。自动手势检测的研究主要集中在视觉和运动信息上,以检测一组有限的孤立或无声手势,忽略了整合语音和视觉信号以检测与语音同时发生的手势。本研究解决了这个问题,重点关注共同语音手势检测,强调语音和共同语音手势之间的同步性。我们解决了三个主要挑战:手势形式的可变性、手势和语音起始时间的时间错位以及模态之间的采样率差异。我们研究了扩展语音时间窗口,并为每种模态使用单独的骨架模型,以解决时间错位和采样率差异。我们利用Transformer编码器在跨模态和早期融合技术中,有效地对齐和整合语音和骨架序列。研究结果表明,结合视觉和语音信息显著提高了手势检测性能。我们的发现表明,将语音缓冲区扩展到视觉时间段之外可以提高性能,并且使用跨模态和早期融合技术的多模态整合优于使用单模态和后期融合方法的基线方法。此外,我们发现模型的手势预测置信度与可能与手势相关的低级语音频率特征存在相关性。总体而言,本研究提供了更好的共同语音手势理解和检测方法,便于分析多模态通信。
- 图表
- 解决问题本论文旨在解决手势识别中存在的挑战,即手势形式的多样性、手势和语音之间的时间错位以及模态之间的采样率差异,以提高语音和手势的联合识别性能。
- 关键思路论文提出了一种基于Transformer编码器的跨模态和早期融合技术,可以有效地对齐和整合语音和骨架序列,并将视觉和语音信息相结合,以显著提高手势识别性能。此外,通过扩展语音缓冲区,可以进一步提高性能。
- 其它亮点论文实验使用了多个数据集,并且开源了代码。研究结果表明,将视觉和语音信息相结合可以显著提高手势识别性能,并且跨模态和早期融合技术优于基准方法。研究还发现模型的手势预测置信度与低级别语音频率特征存在相关性。
- 最近的相关研究包括:'Multimodal Gesture Recognition Using 3D Convolutional Neural Networks'、'Deep Multimodal Fusion for Co-Speech Gesture Recognition'、'A Survey of Hand Gesture Recognition Techniques and Applications in Human–Computer Interaction'等。
沙发等你来抢
去评论
评论
沙发等你来抢