- 简介近年来,自动语音识别(ASR)系统得到了显著的改善,特别是在有大量转录语音数据的语言中。然而,对于资源较少的低资源语言,如少数民族和地方语言,ASR系统往往表现不佳。本研究介绍了一种新的流程,旨在从有单一文本关联的长时间音频书籍中生成ASR训练数据集。这些音频书籍的通用结构由于音频片段的长度很长,而最佳的ASR训练需要4到15秒的片段,因此面临着独特的挑战。为了解决这个问题,我们提出了一种有效地将音频与其对应的文本对齐并将其分割成适合ASR训练的长度的方法。我们的方法简化了低资源语言的ASR系统数据准备,并通过涉及亚美尼亚语的案例研究展示了其应用。我们的方法“可移植”到许多低资源语言,不仅缓解了数据稀缺的问题,还提高了代表性不足语言的ASR模型的性能。
- 图表
- 解决问题如何解决低资源语言的自动语音识别问题?
- 关键思路通过从有声读物中生成ASR训练数据集的新方法来简化低资源语言的ASR数据准备,并提高ASR模型的性能。
- 其它亮点论文介绍了一种新的方法来处理有声读物数据,以生成适合ASR训练的数据集。该方法可以有效地对齐音频和文本,并将其分割成适合ASR训练的长度。该方法在亚美尼亚语中得到了应用,并展示了其在低资源语言中提高ASR性能的能力。
- 与该论文相关的研究包括使用不同技术和方法来处理低资源语言的ASR问题的其他论文,如《Low Resource Speech Recognition: Quo Vadis?》和《Advances in Low-Resource Speech Processing》等。
沙发等你来抢
去评论
评论
沙发等你来抢