NAST: Noise Aware Speech Tokenization for Speech Language Models

2024年06月16日
  • 简介
    语音分词是将语音信号表示为离散单元序列的任务。这种表示可以用于各种下游任务,包括自动语音识别、文本转语音等。更与本研究相关的是,这种表示是语音语言模型的基础。在这项工作中,我们在嘈杂的环境下解决了语音分词的任务,并提出了NAST:用于语音语言模型的噪声感知语音分词。NAST由三个主要组件组成:(i)预测器;(ii)残差编码器;和(iii)解码器。我们评估了NAST在几个口语建模任务中的效率,并展示了NAST在所有设置中都优于评估基线的结果。最后,我们分析了NAST,并展示了它的分离特性和对信号变化的鲁棒性,包括噪声、混响、音高变换和时间拉伸。代码和预训练模型可在https://github.com/ShovalMessica/NAST中获得。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决在嘈杂的环境下进行语音分词的问题,并提出了一种新的解决方案。
  • 关键思路
    该论文提出了一种名为NAST的方法,它由预测器、残差编码器和解码器三个主要组件组成,可以有效地进行语音分词,并且具有鲁棒性。
  • 其它亮点
    该论文通过多个口语语言建模任务的评估表明,NAST在各种设置下均优于基线模型。此外,该论文还分析了NAST的解缕特性以及对信号变化的鲁棒性,并提供了代码和预训练模型。
  • 相关研究
    与该论文相关的研究包括:《Speech tokenization using deep neural networks》、《End-to-end ASR: from Supervised to Semi-Supervised Learning with Modern Architectures》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问