- 简介与传统的视频检索不同,手语检索更加偏向于理解视频片段中包含的人类动作的语义信息。以往的研究通常只对RGB视频进行编码以获取高级语义特征,导致局部动作细节淹没在大量的视觉信息冗余中。此外,现有的基于RGB的手语检索方法在端到端训练中存在密集视觉数据嵌入的巨大内存成本,并采用离线RGB编码器,导致特征表示不够优化。为了解决这些问题,我们提出了一种新颖的手语表示框架,称为语义增强的双流编码器(SEDS),它集成了姿势和RGB模态以表示手语视频的局部和全局信息。具体来说,姿势编码器嵌入了与人类关节对应的关键点的坐标,有效捕捉了详细的动作特征。为了更好地上下文感知融合两种视频模态,我们提出了一种交叉语境关注融合(CGAF)模块,以从内部模态和跨模态中聚合具有类似语义信息的相邻剪辑特征。此外,我们开发了一种姿势-RGB细粒度匹配目标,通过细粒度双流特征的上下文匹配来增强聚合融合特征。除了离线RGB编码器外,整个框架只包含可学习的轻量级网络,可以进行端到端训练。广泛的实验表明,我们的框架在各种数据集上显著优于现有的最先进方法。
- 图表
- 解决问题本论文旨在解决手语检索中的局限性,即传统的RGB视频检索方法存在局限性,无法充分理解视频中的语义信息,同时还存在巨大的内存成本和特征表示不足的问题。
- 关键思路本文提出了一种新的手语表示框架SEDS,该框架将姿态和RGB模态相结合,以表示手语视频的局部和全局信息。其中,姿态编码器可以有效地捕捉详细的动作特征,并提出了CGAF模块来聚合具有相似语义信息的相邻剪辑特征,从而实现更好的上下文感知融合。此外,还提出了Pose-RGB Fine-grained Matching Objective来增强融合特征的上下文匹配能力。
- 其它亮点本文的亮点包括:采用了新的手语表示框架SEDS,将姿态和RGB模态相结合;提出了CGAF模块来聚合相邻剪辑特征;提出了Pose-RGB Fine-grained Matching Objective来增强融合特征的上下文匹配能力。实验结果表明,本文的方法在各种数据集上都显著优于现有方法。
- 与本文相关的研究包括:《End-to-End Sign Language Recognition and Spotting Using Transformers》、《Sign Language Recognition with Temporal Residual Networks》、《Sign Language Recognition Using a Fusion of RGB and Depth Data》等。
沙发等你来抢
去评论
评论
沙发等你来抢