A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision

2024年05月16日
  • 简介
    本文的目标有两个:大词汇连续手语识别(CSLR)和手语检索。为此,我们引入了一种名为CSLR2的多任务Transformer模型,它能够输入一个手语序列,并在手语和口语文本之间的联合嵌入空间中输出。为了在大词汇设置下进行CSLR评估,我们引入了新的数据集注释,这些注释是手动收集的。它们为6小时的测试视频提供了连续的手语级别注释,并将公开提供。我们证明通过仔细选择损失函数,训练模型同时完成CSLR和检索任务对性能有相互促进的好处——检索通过提供上下文来提高CSLR性能,而CSLR通过提供更细粒度的监督来提高检索性能。我们进一步展示了利用大词汇数据集(如BOBSL)中的弱监督和噪声监督的好处,即手语级伪标签和英文字幕。我们的模型在两个任务上显著优于先前的最新技术水平。
  • 图表
  • 解决问题
    本文旨在解决大词汇量连续手语识别(CSLR)和手语检索两个问题。为此,介绍了一种多任务Transformer模型CSLR2,能够将手语序列输入并输出到手语和口语文本之间的联合嵌入空间中。同时,为了在大词汇量环境下进行CSLR评估,引入了新的数据集注释,提供了六小时的连续手语级别注释的测试视频,并将其公开。本文试图解决的问题是手语识别和检索,这是一个相对较新的问题。
  • 关键思路
    本文的关键思路是使用多任务Transformer模型CSLR2,同时训练CSLR和检索任务,并通过精细的损失函数选择,实现相互促进的效果。同时,利用大词汇量数据集BOBSL的弱监督和噪声监督,即手语级伪标签和英文字幕,进一步提高了模型的性能。
  • 其它亮点
    本文的亮点包括:1. 提出了一种多任务Transformer模型CSLR2,能够同时处理CSLR和检索任务;2. 引入了新的数据集注释,提供了六小时的连续手语级别注释的测试视频,并将其公开;3. 通过精细的损失函数选择,实现了相互促进的效果;4. 利用大词汇量数据集BOBSL的弱监督和噪声监督,即手语级伪标签和英文字幕,进一步提高了模型的性能。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. Zelinka等人的“Continuous Sign Language Recognition using Wearable Sensors and Deep Learning”;2. Camgoz等人的“Neural Sign Language Translation”。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论