- 简介我们提出了一种新的方法来优化自动语音识别(ASR)的字节级表示。当支持的语言字符集较大时,大规模多语言ASR系统通常使用字节级表示。字节级表示的紧凑性和通用性使ASR模型可以使用更小的输出词汇表,因此提供了更大的灵活性。UTF-8是多语言ASR中常用的字节级表示,但它并不是专门为直接优化机器学习任务而设计的。通过使用自动编码器和向量量化,我们展示了可以优化ASR的字节级表示并提高准确性。我们提出的框架可以整合来自不同模态的信息,并提供纠错机制。在英语/普通话听写任务中,我们展示了使用这种方法构建的双语ASR模型可以比UTF-8表示提高5%的相对误差率。
- 图表
- 解决问题优化字节级表示以提高自动语音识别(ASR)的准确性。
- 关键思路使用自编码器和向量量化来优化字节级表示,提高ASR的准确性。
- 其它亮点论文使用了自编码器和向量量化来优化字节级表示,提高ASR的准确性。实验结果表明,这种方法在英语/普通话口述任务中的表现比UTF-8表示法优越5%。
- 最近的相关研究包括基于深度学习的ASR模型和使用其他字节级表示方法的研究,如UTF-8和byte-pair encoding(BPE)。
沙发等你来抢
去评论
评论
沙发等你来抢