- 简介自监督学习已经被证明对于许多语音处理任务有益,例如语音识别/翻译、说话人验证和日程安排等。然而,由于使用变压器编码器并且缺乏子采样,大多数这些方法都需要大量的计算资源。在本文中,我们提出了一种新的自监督学习模型,称为用于语音任务的预训练编码器(NEST)。具体而言,我们采用了FastConformer架构,该架构具有8倍的子采样率,比Transformer或Conformer架构更快。我们放弃了基于聚类的令牌生成,而是采用固定的随机投影,因其简单和有效而被采用。我们还提出了一种广义的噪声语音增强技术,可以教导模型将主要说话人与噪声或其他说话人区分开来。实验表明,所提出的NEST模型在各种语音处理任务上比现有的自监督模型表现更好。代码和检查点将通过NVIDIA NeMo工具包公开提供。
- 图表
- 解决问题本文旨在提出一种新的自监督学习模型NEST,解决当前使用transformer encoder的自监督学习模型在计算上的瓶颈问题。
- 关键思路NEST模型采用了FastConformer架构,具有8倍的子采样率,并且使用固定的随机投影代替基于聚类的令牌生成,同时提出了一种噪声语音增强方法,使模型能够区分主要说话人和噪声或其他说话人。
- 其它亮点本文提出的NEST模型在多种语音处理任务中均优于现有的自监督模型,实验使用的数据集包括LibriSpeech、WSJ、CommonVoice等,代码和检查点将通过NVIDIA NeMo工具包公开。
- 最近的相关研究包括:1. Self-Supervised Learning for Speech Recognition: A Review; 2. Unsupervised Speech Recognition; 3. Contrastive Predictive Coding for Speech Recognition。
沙发等你来抢
去评论
评论
沙发等你来抢