MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations

简介

近年来，自监督预训练方法在从原始语音中学习高级信息方面取得了显著进展。在这些方法中，HuBERT在自动语音识别（ASR）方面展现出了SOTA的性能。然而，由于预训练策略的差异，HuBERT的表现落后于data2vec。在本文中，我们提出了(i)一种Swap方法来解决在HuBERT中观察到的预训练和推理不匹配的问题，以及(ii)结合多聚类掩蔽预测损失，以更有效地利用模型的容量。得到的方法是MS-HuBERT，一种端到端的自监督预训练方法，用于学习强大的语音表示。在ASR Librispeech基准测试中，与基准HuBERT相比，MS-HuBERT在不同的微调分割上平均提高了5%的性能。此外，我们证明，在预训练期间学习到的嵌入编码了提高基于内容任务（如ASR）性能的重要信息。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种新的自监督预训练方法MS-HuBERT，以学习更强大的语音表示，并解决HuBERT在预训练和推理中存在的不匹配问题，从而提高自动语音识别的性能。
关键思路

该方法采用了Swap方法来解决HuBERT在预训练和推理中存在的不匹配问题，并结合了Multicluster掩码预测损失，以更有效地利用模型的容量。MS-HuBERT在ASR Librispeech基准测试中的表现优于HuBERT平均5％。
其它亮点

实验结果表明，MS-HuBERT学到的嵌入表示对于改善内容相关任务（如ASR）的性能具有重要作用。此外，论文还开源了代码，并提供了与其他自监督预训练方法的比较。
相关研究

在最近的相关研究中，还有一些自监督预训练方法被提出，如SimCLR和data2vec。

MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations

提问交流

提问交流