作者:Zeping Min, Qian Ge, Zhong Li 等
推荐理由:本文研究提出了一种用于语音识别任务的新的数据增强范式。
简介:作者提出了一种用于低资源自动语音识别 (ASR) 任务的新型文本转语音 (TTS) 数据增强框架,名为音素音频混合 (PAMP)。PAMP 方法具有高度可解释性,可以结合发音规则的先验知识。此外,PAMP 几乎可以用任何语言轻松部署,特别适用于低资源 ASR 任务。大量实验证明了 PAMP 在低资源 ASR 任务上的巨大有效性:作者在普通语音粤语语音识别任务上实现了10.84%的CER,大大改进了之前的SOTA(约30%,通过微调wav2vec2实现)。作者希望PAMP方法能够为音频识别任务的发展做出贡献。


论文下载:https://arxiv.org/pdf/2302.03498.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除