- 简介语音分词是将语音信号表示为离散单元序列的任务。这种表示可以用于各种下游任务,包括自动语音识别、文本转语音等。更与本研究相关的是,这种表示是语音语言模型的基础。在这项工作中,我们在嘈杂的环境下解决了语音分词的任务,并提出了NAST:用于语音语言模型的噪声感知语音分词。NAST由三个主要组件组成:(i)预测器;(ii)残差编码器;和(iii)解码器。我们评估了NAST在几个口语建模任务中的效率,并展示了NAST在所有设置中都优于评估基线的结果。最后,我们分析了NAST,并展示了它的分离特性和对信号变化的鲁棒性,包括噪声、混响、音高变换和时间拉伸。代码和预训练模型可在https://github.com/ShovalMessica/NAST中获得。
-
- 图表
- 解决问题该论文旨在解决在嘈杂的环境下进行语音分词的问题,并提出了一种新的解决方案。
- 关键思路该论文提出了一种名为NAST的方法,它由预测器、残差编码器和解码器三个主要组件组成,可以有效地进行语音分词,并且具有鲁棒性。
- 其它亮点该论文通过多个口语语言建模任务的评估表明,NAST在各种设置下均优于基线模型。此外,该论文还分析了NAST的解缕特性以及对信号变化的鲁棒性,并提供了代码和预训练模型。
- 与该论文相关的研究包括:《Speech tokenization using deep neural networks》、《End-to-end ASR: from Supervised to Semi-Supervised Learning with Modern Architectures》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流