Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition

2024年06月15日
  • 简介
    最近,有一些努力通过设计自监督学习方法来提高手语识别的性能。然而,这些方法在逐帧学习手势姿势数据时捕捉到的信息有限,导致了次优解。为此,我们提出了一个简单而有效的自监督对比学习框架,通过两个不同的视角从空间-时间一致性中挖掘丰富的上下文,并学习实例区分表示以进行手语识别。一方面,由于手语的语义是通过细粒度的手和粗粒度的躯干的协作来表达的,我们利用了这两种粒度的信息并将它们编码成潜在空间。手和躯干特征之间的一致性被限制在一起,以鼓励学习一致的实例样本表示。另一方面,受运动和关节模态互补性的启发,我们首先将一阶运动信息引入手语建模中。此外,我们进一步搭建了两种模态嵌入空间之间的交互,促进双向知识传递,以增强手语表示。我们的方法在四个公共基准测试中进行了广泛的实验评估,并取得了显著的最新最佳表现。源代码可在https://github.com/sakura/Code上公开获取。
  • 图表
  • 解决问题
    本论文旨在解决手语识别中仅通过帧级别学习方法所捕捉到的信息有限,导致解决方案不够优化的问题。作者提出了一种自监督对比学习框架,以从两个不同的视角挖掘丰富的上下文信息,通过空间-时间一致性学习实例判别式表示,以提高手语识别的性能。
  • 关键思路
    论文提出的关键思路是采用自监督对比学习框架,从两个不同的视角挖掘丰富的上下文信息,以提高手语识别的性能。其中,作者将手和躯干的粒度信息都编码到潜在空间中,约束手和躯干特征之间的一致性,以鼓励学习一致的实例样本表示。此外,作者还引入了一阶运动信息来模拟手语,并进一步桥接了两种模态的嵌入空间之间的交互,以增强手语表示。
  • 其它亮点
    论文的亮点包括:1.采用自监督对比学习框架,从两个不同的视角挖掘丰富的上下文信息,以提高手语识别的性能;2.将手和躯干的粒度信息都编码到潜在空间中,约束手和躯干特征之间的一致性,以鼓励学习一致的实例样本表示;3.引入了一阶运动信息来模拟手语,并进一步桥接了两种模态的嵌入空间之间的交互,以增强手语表示。实验使用了四个公共基准数据集,取得了新的最先进的性能,并且作者已公开源代码。
  • 相关研究
    近期在这个领域中,还有一些相关的研究,例如:“Self-supervised Learning for Sign Language Recognition: A Survey”、“Sign Language Recognition using Convolutional Neural Networks and Long Short-Term Memory”、“Sign Language Recognition with Spatiotemporal Residual Networks”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论