NEST: Self-supervised Fast Conformer as All-purpose Seasoning to Speech Processing Tasks

2024年08月23日
  • 简介
    自监督学习已经被证明对于许多语音处理任务有益,例如语音识别/翻译、说话人验证和日程安排等。然而,由于使用变压器编码器并且缺乏子采样,大多数这些方法都需要大量的计算资源。在本文中,我们提出了一种新的自监督学习模型,称为用于语音任务的预训练编码器(NEST)。具体而言,我们采用了FastConformer架构,该架构具有8倍的子采样率,比Transformer或Conformer架构更快。我们放弃了基于聚类的令牌生成,而是采用固定的随机投影,因其简单和有效而被采用。我们还提出了一种广义的噪声语音增强技术,可以教导模型将主要说话人与噪声或其他说话人区分开来。实验表明,所提出的NEST模型在各种语音处理任务上比现有的自监督模型表现更好。代码和检查点将通过NVIDIA NeMo工具包公开提供。
  • 图表
  • 解决问题
    本文旨在提出一种新的自监督学习模型NEST,解决当前使用transformer encoder的自监督学习模型在计算上的瓶颈问题。
  • 关键思路
    NEST模型采用了FastConformer架构,具有8倍的子采样率,并且使用固定的随机投影代替基于聚类的令牌生成,同时提出了一种噪声语音增强方法,使模型能够区分主要说话人和噪声或其他说话人。
  • 其它亮点
    本文提出的NEST模型在多种语音处理任务中均优于现有的自监督模型,实验使用的数据集包括LibriSpeech、WSJ、CommonVoice等,代码和检查点将通过NVIDIA NeMo工具包公开。
  • 相关研究
    最近的相关研究包括:1. Self-Supervised Learning for Speech Recognition: A Review; 2. Unsupervised Speech Recognition; 3. Contrastive Predictive Coding for Speech Recognition。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论