Open Implementation and Study of BEST-RQ for Speech Processing

简介

自监督学习（SSL）已被证明在各种语音任务中非常有用。然而，这些方法通常在数据、内存和计算资源方面要求非常高。基于BERT的语音预训练和随机投影量化器（BEST-RQ）是一种SSL方法，在自动语音识别（ASR）方面表现出色，同时比其他SSL方法（如wav2vec 2.0）更简单。尽管BEST-RQ表现出色，但原始论文缺乏细节，例如预训练中使用的GPU/TPU小时数，也没有官方易于使用的开源实现。此外，除了ASR和语音翻译之外，BEST-RQ还没有在其他下游任务上进行评估。在这项工作中，我们描述了一个随机投影量化器的重新实现，并进行了初步研究，与wav2vec 2.0在四个下游任务上进行了比较。我们讨论了我们实现的细节和差异。我们表明，与wav2vec 2.0相比，随机投影量化器可以实现类似的下游性能，同时将训练时间减少了一半以上。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图探讨使用BEST-RQ方法进行自监督学习是否可以在语音识别等下游任务中取得良好表现，同时降低训练时间和计算资源需求。
关键思路

论文提出了一种基于随机投影量化器的自监督学习方法BEST-RQ，相比wav2vec 2.0等方法，可以在减少训练时间的同时实现与其相似的下游任务表现。
其它亮点

论文重新实现了随机投影量化器，并在四个下游任务上进行了初步研究，结果表明BEST-RQ可以取得与wav2vec 2.0相似的表现，同时训练时间减少了一半以上。论文提供了开源代码。
相关研究

与本文相关的研究包括wav2vec 2.0、SSL等自监督学习方法在语音识别领域的应用研究。

Open Implementation and Study of BEST-RQ for Speech Processing

提问交流

提问交流