最近研究了 ASR (Automatic Speech Recognition)领域各种使用自监督方法训练的模型,并在此做一些简单的总结。

ASR 方法主要分为两类,一类是传统的方法,先使用声学模型将语音转换为拼音或者是其他的中间形式,然后使用语言模型达成再将中间形式转换为文本,从而达到语音转文本的目的。另一类是直接采用端到端的形式把语音转换为文本。

本文的介绍主要聚焦于端到端的形式。自从预训练模型的诞生,ASR 领域也借鉴了预训练的思想。目前 ASR 中的预训练方法普遍采用预训练特征提取器(训练encoder)的方式,通过海量的无标注音频进行学习,取得了非常显著的效果。

本文一共介绍 3 篇 ASR 领域中使用自监督方法的论文,第一篇论文是 CPC(Contrastive Predictive Coding)该论文首次提出了 InfoNCE loss(没想到竟然出自 ASR 领域),奠定了对比学习领域的基础。第二篇论文则是 Facebook 经典的 wav2vec 模型,之后 Fackbook 的一系列 ASR 模型的基础。第三篇则是提出了将 ASR 与 NLP 进行了跨界融合的新思路,得益于 BERT 的加持也取得了很好的效果。

1. Representation Learning with Contrastive Predictive Coding

论文地址:

https://arxiv.org/pdf/1807.03748.pdf

2. wav2vec: Unsupervised Pre-training for Speech Recognition

论文地址:

https://arxiv.org/abs/1904.05862

3. vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations

论文地址:

https://openreview.net/forum?id=rylwJxrYDS

内容中包含的图片若涉及版权问题,请及时与我们联系删除