北大、微软 | PAMP: A unified framework boosting low resource automatic speech recognition（PAMP：促进低资源自动语音识别的统一框架）

作者：Zeping Min, Qian Ge, Zhong Li 等
推荐理由：本文研究提出了一种用于语音识别任务的新的数据增强范式。
简介：作者提出了一种用于低资源自动语音识别 (ASR) 任务的新型文本转语音 (TTS) 数据增强框架，名为音素音频混合 (PAMP)。PAMP 方法具有高度可解释性，可以结合发音规则的先验知识。此外，PAMP 几乎可以用任何语言轻松部署，特别适用于低资源 ASR 任务。大量实验证明了 PAMP 在低资源 ASR 任务上的巨大有效性：作者在普通语音粤语语音识别任务上实现了10.84%的CER，大大改进了之前的SOTA（约30%，通过微调wav2vec2实现）。作者希望PAMP方法能够为音频识别任务的发展做出贡献。

论文下载：https://arxiv.org/pdf/2302.03498.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

北大、微软 | PAMP: A unified framework boosting low resource automatic speech recognition（PAMP：促进低资源自动语音识别的统一框架）

评论列表

评论