- 简介语音语言可以使用语音表示进行记录,但是对于手语语言来说,没有类似的表示方法。因此,语言学家们提出了几种基于词汇或子单元级别的注释系统;然而,这些资源明显不规则且稀缺。 手语生成(SLP)旨在将口语句子自动翻译为连续的手语序列。然而,目前最先进的方法依赖于稀缺的语言资源才能工作。这限制了该领域的进展。本文提出了一种创新的解决方案,将连续的姿势生成问题转化为离散序列生成问题。因此,克服了昂贵注释的需求。虽然如果有可用的话,我们会利用额外的信息来增强我们的方法。 通过对手语数据应用向量量化(VQ),我们首先学习了一个短动作的代码本,这些动作可以组合在一起创建自然的手语序列。代码本中的每个标记都可以被视为我们表示的词汇表。然后,使用变换器将口语文本翻译成代码本标记序列。每个标记都可以直接映射到一系列姿势,从而使翻译可以由单个网络执行。此外,我们提出了一种手语拼接方法,以有效地将标记组合在一起。我们在RWTH-PHOENIX-Weather-2014T(PHOENIX14T)和更具挑战性的Meine DGS Annotated(mDGS)数据集上进行评估。广泛的评估表明,我们的方法优于以前的方法,将BLEU-1回译分数提高了高达72%。
- 图表
- 解决问题论文旨在解决手语语言转换的问题,其中传统方法需要昂贵的注释,而本文提出了一种创新的解决方案,将连续姿势生成问题转化为离散序列生成问题,从而克服了昂贵注释的需求。
- 关键思路本文的关键思路是通过将手语数据应用向量量化,首先学习一组短动作的码本,然后使用变压器将口语文本翻译成码本令牌序列,每个令牌可以直接映射到一系列姿势序列,从而实现手语的自动翻译。
- 其它亮点论文使用了Vector Quantisation (VQ)技术将手语数据转化为码本令牌序列,然后使用变压器进行翻译,最后采用手语拼接方法有效地将令牌组合在一起。实验评估表明,本文的方法在PHOENIX14T和mDGS数据集上优于以前的方法,将BLEU-1回译分数提高了高达72%。
- 最近相关的研究包括使用神经网络和深度学习方法进行手语翻译的研究,如“Deep Sign: Deep Learning for Automatic Sign Language Production”和“Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation”。
沙发等你来抢
去评论
评论
沙发等你来抢