INTERSPEECH 是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议,9月18号开会!本教程部分将介绍自监督语音表示学习方法及其与相关研究领域的联系。非常值得关注!

图片

 

尽管深度学习模型已经彻底改变了语音和音频处理领域,但它们为单个任务和应用场景构建了专门的模型。深度神经模型也阻碍了方言和标记数据有限的语言。自监督表示学习方法有望提供一个单一的通用模型,以造福于一系列任务和领域。他们最近在NLP和计算机视觉领域取得了成功,达到了新的性能水平,同时减少了许多下游场景所需的标签。语音表示学习也在经历着类似的发展,主要有三类: 生成、对比和预测。其他方法则依赖于多模态数据进行预训练,将文本或视觉数据流与语音混合。虽然自监督语音表征仍是一个发展中的研究领域,但它与声学词嵌入和零词汇资源学习密切相关。本教程部分将介绍自监督语音表示学习方法及其与相关研究领域的联系。由于目前的许多方法只关注自动语音识别作为下游任务,我们将回顾最近对学习表示的基准测试的努力,以扩展这种表示在语音识别之外的应用。本教程的一个实践部分将提供构建和评估语音表示模型的实用指导。

 

PPT下载

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除