标题:微软|WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing(WavLM:大规模自监督预训练用于全栈语音处理)

作者:Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu等

简介:本文介绍了基于自监督学习 (SSL) 在语音识别。由于语音信号包含包括说话人身份在内的多方面信息,副语言学、口语内容等,学习所有语音任务的通用表示是具有挑战性的。在本文中,作者提出了一种新的预训练模型 WavLM,以解决全栈下游语音任务。WavLM 扩展了HuBERT去噪掩码语音建模的框架,其中目标是预测伪标签掩蔽区域上的模拟嘈杂语音。通过添加额外的噪音或来自其他话语的语音来创建关于原话的模拟语音。去噪蒙版语音建模任务旨在改进模型对复杂声学环境的鲁棒性和保留说话人的身份。作者扩大规模训练数据集从60k小时到 94k小时。WavLM Large在SUPERB基准测试中实现了最先进的性能,并带来了各种语音处理任务在其代表性基准上的显着改进。

代码下载:https://github.com/microsoft/unilm/tree/master/wavlm

论文下载:https://arxiv.org/pdf/2110.13900.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除