Children's Speech Recognition through Discrete Token Enhancement

简介

儿童语音识别被认为是一项低资源的任务，主要是因为缺乏公开可用的数据。这种数据稀缺性有几个原因，包括昂贵的数据收集和注释过程以及数据隐私等。将语音信号转化为不包含敏感信息但捕捉语言和声学信息的离散标记可能是解决隐私问题的一种方法。在本研究中，我们研究了将离散语音标记集成到儿童语音识别系统中作为输入的方法，而不会显著降低ASR性能。此外，我们探索了单视图和多视图策略来创建这些离散标签。此外，我们对模型进行了测试，以了解其在未见领域和出生地数据集上的泛化能力。结果表明，儿童的离散标记ASR实现了近乎等同的性能，同时减少了约83%的参数。
图表
解决问题

如何在缺乏数据的情况下，将离散语音标记集成到儿童语音识别系统中，以解决数据隐私问题，并保持ASR性能不变？
关键思路

将语音信号转换为离散标记，以捕捉语言和声学信息，同时保护个人隐私。使用单视图和多视图策略创建这些标记，并测试模型在不同数据集上的泛化能力。结果表明，离散标记ASR的性能近似，但参数减少了83%。
其它亮点

实验设计了单视图和多视图策略用于创建离散标记，测试了模型的泛化能力，包括未见过的领域和本地语音数据集。结果表明，使用离散标记的ASR性能相当，但参数减少了83%。这项工作提供了一种解决数据隐私问题的新思路。
相关研究

最近的相关研究包括《Low-resource children's speech recognition using bottleneck features and unsupervised pre-training》和《Cross-lingual transfer learning for low-resource speech recognition: A comparative study》。

Children's Speech Recognition through Discrete Token Enhancement

评论