论文链接:https://dspace.mit.edu/bitstream/handle/1721.1/144761/Chung-andyyuan-PhD-EECS-2022-thesis.pdf?sequence=1&isAllowed=y

在大量标记语音数据上使用监督学习算法训练的深度神经网络在各种语音处理应用中取得了显著的性能,往往在相应的排行榜上处于领先地位。然而,训练这些系统依赖于大量带注释的语音这一事实,为继续发展最先进的性能造成了可扩展性瓶颈,而且对在语音领域部署深度神经网络构成了更根本的障碍,因为标记数据本质上是罕见的,昂贵的,或耗时的收集。

 

与带注释的语音相比,未转录的音频通常积累起来要便宜得多。在这篇论文中,我们探索使用自我监督学习——一种学习目标由输入本身产生的学习范式——来利用这种易于扩展的资源来提高口语技术的性能。提出了两种自监督算法,一种基于"未来预测"的思想,另一种基于"从未被掩码中预测被掩码"的思想,用于从未标记语音数据中学习上下文化语音表示。我们证明了我们的自监督算法能够学习表征,将语音信号的高级属性,如语音内容和说话人特征转换为比传统声学特征更容易获得的形式,并证明了它们在提高深度神经网络在广泛的语音处理任务中的性能方面的有效性。除了提出新的学习算法,我们还提供了广泛的分析,旨在理解学习的自监督表示的属性,以及揭示使一个自监督模型不同于另一个的设计因素。