- 简介在这项研究中,我们解决了低资源语言(尤其是印地语)自动语音识别中标记数据有限的挑战。具体而言,我们探索了伪标记技术,提出了一个通用的框架,将现有工作的多个思想结合在一起。我们的框架集成了多个基础模型进行转录,并使用评估器评估音频-文本对,从而实现了对低资源语言的强大伪标记。我们使用一个新的基准数据集IndicYT验证了我们的方法,该数据集包括来自多个内容类别的多样化YouTube音频文件。我们的研究结果表明,将来自YouTube的伪标记数据与现有的训练数据相结合,可以显著提高IndicYT的性能,而不会影响域外基准的性能,从而证明了伪标记数据在增强低资源语言的ASR能力方面的有效性。这项工作的基准数据、代码和模型将公开发布。
- 图表
- 解决问题如何解决低资源语言在ASR中标注数据不足的问题,以印地语为例?
- 关键思路提出了一种伪标注的框架,将多个基础模型和评估器集成,利用YouTube的数据进行伪标注,进而增强ASR能力。
- 其它亮点使用新的基准数据集IndicYT验证了该方法的有效性,同时不影响领域外数据集的表现。论文提供了代码、模型和数据集并进行了开源。
- 与该论文相关的研究包括:《Unsupervised Data Augmentation for Consistency Training》、《Semi-Supervised Learning with Ladder Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢