Optimizing Byte-level Representation for End-to-end ASR

简介

我们提出了一种新的方法来优化自动语音识别（ASR）的字节级表示。当支持的语言字符集较大时，大规模多语言ASR系统通常使用字节级表示。字节级表示的紧凑性和通用性使ASR模型可以使用更小的输出词汇表，因此提供了更大的灵活性。UTF-8是多语言ASR中常用的字节级表示，但它并不是专门为直接优化机器学习任务而设计的。通过使用自动编码器和向量量化，我们展示了可以优化ASR的字节级表示并提高准确性。我们提出的框架可以整合来自不同模态的信息，并提供纠错机制。在英语/普通话听写任务中，我们展示了使用这种方法构建的双语ASR模型可以比UTF-8表示提高5%的相对误差率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

优化字节级表示以提高自动语音识别（ASR）的准确性。
关键思路

使用自编码器和向量量化来优化字节级表示，提高ASR的准确性。
其它亮点

论文使用了自编码器和向量量化来优化字节级表示，提高ASR的准确性。实验结果表明，这种方法在英语/普通话口述任务中的表现比UTF-8表示法优越5%。
相关研究

最近的相关研究包括基于深度学习的ASR模型和使用其他字节级表示方法的研究，如UTF-8和byte-pair encoding（BPE）。