NAST: Noise Aware Speech Tokenization for Speech Language Models

简介

语音分词是将语音信号表示为离散单元序列的任务。这种表示可以用于各种下游任务，包括自动语音识别、文本转语音等。更与本研究相关的是，这种表示是语音语言模型的基础。在这项工作中，我们在嘈杂的环境下解决了语音分词的任务，并提出了NAST：用于语音语言模型的噪声感知语音分词。NAST由三个主要组件组成：（i）预测器；（ii）残差编码器；和（iii）解码器。我们评估了NAST在几个口语建模任务中的效率，并展示了NAST在所有设置中都优于评估基线的结果。最后，我们分析了NAST，并展示了它的分离特性和对信号变化的鲁棒性，包括噪声、混响、音高变换和时间拉伸。代码和预训练模型可在https://github.com/ShovalMessica/NAST中获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决在嘈杂的环境下进行语音分词的问题，并提出了一种新的解决方案。
关键思路

该论文提出了一种名为NAST的方法，它由预测器、残差编码器和解码器三个主要组件组成，可以有效地进行语音分词，并且具有鲁棒性。
其它亮点

该论文通过多个口语语言建模任务的评估表明，NAST在各种设置下均优于基线模型。此外，该论文还分析了NAST的解缕特性以及对信号变化的鲁棒性，并提供了代码和预训练模型。
相关研究

与该论文相关的研究包括：《Speech tokenization using deep neural networks》、《End-to-end ASR: from Supervised to Semi-Supervised Learning with Modern Architectures》等。

NAST: Noise Aware Speech Tokenization for Speech Language Models

提问交流

提问交流