NEST: Self-supervised Fast Conformer as All-purpose Seasoning to Speech Processing Tasks

简介

自监督学习已经被证明对于许多语音处理任务有益，例如语音识别/翻译、说话人验证和日程安排等。然而，由于使用变压器编码器并且缺乏子采样，大多数这些方法都需要大量的计算资源。在本文中，我们提出了一种新的自监督学习模型，称为用于语音任务的预训练编码器（NEST）。具体而言，我们采用了FastConformer架构，该架构具有8倍的子采样率，比Transformer或Conformer架构更快。我们放弃了基于聚类的令牌生成，而是采用固定的随机投影，因其简单和有效而被采用。我们还提出了一种广义的噪声语音增强技术，可以教导模型将主要说话人与噪声或其他说话人区分开来。实验表明，所提出的NEST模型在各种语音处理任务上比现有的自监督模型表现更好。代码和检查点将通过NVIDIA NeMo工具包公开提供。
图表
解决问题

本文旨在提出一种新的自监督学习模型NEST，解决当前使用transformer encoder的自监督学习模型在计算上的瓶颈问题。
关键思路

NEST模型采用了FastConformer架构，具有8倍的子采样率，并且使用固定的随机投影代替基于聚类的令牌生成，同时提出了一种噪声语音增强方法，使模型能够区分主要说话人和噪声或其他说话人。
其它亮点

本文提出的NEST模型在多种语音处理任务中均优于现有的自监督模型，实验使用的数据集包括LibriSpeech、WSJ、CommonVoice等，代码和检查点将通过NVIDIA NeMo工具包公开。
相关研究

最近的相关研究包括：1. Self-Supervised Learning for Speech Recognition: A Review; 2. Unsupervised Speech Recognition; 3. Contrastive Predictive Coding for Speech Recognition。

NEST: Self-supervised Fast Conformer as All-purpose Seasoning to Speech Processing Tasks

评论