BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition

简介

最近，自监督学习已经展现出从未标记的数据中学习视觉和听觉语音表示的巨大潜力。在这项工作中，我们提出了BRAVEn，这是对最近的RAVEn方法的扩展，它完全从原始的音频-视觉数据中学习语音表示。我们对RAVEn进行的修改使得BRAVEn能够在各种设置中实现自监督方法的最新成果。此外，我们观察到，通过增加未标记数据的数量，我们可以获得有利的扩展行为，远远超过其他自监督方法。特别地，我们在LRS3测试集上实现了20.0％/1.7％的VSR / ASR词错误率，仅使用30小时的标记数据和没有外部ASR模型。我们的结果表明，现成的未标记音频-视觉数据可以在很大程度上替代昂贵的转录数据。
图表
解决问题

本论文旨在通过自监督学习方法，从未标记的视听数据中学习语音表示，以取代昂贵的转录数据。
关键思路

BRAVEn是对RAVEn方法的扩展，能够在不需要标记数据的情况下，从原始视听数据中学习语音表示。通过增加对RAVEn的修改，BRAVEn在各种设置中实现了最先进的自监督方法的结果，并且在增加未标记数据的情况下观察到有利的扩展行为。
其它亮点

论文的实验表明，BRAVEn在LRS3测试集上实现了20.0％/1.7％的VSR / ASR词错误率，仅使用30小时的标记数据和没有外部ASR模型。这表明，现成的未标记视听数据可以很大程度上取代昂贵的转录数据。
相关研究

在这个领域中，最近的相关研究包括RAVEn和其他自监督学习方法，如SimCLR和MoCo。

BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition

评论