Optimizing Byte-level Representation for End-to-end ASR

2024年06月14日
  • 简介
    我们提出了一种新的方法来优化自动语音识别(ASR)的字节级表示。当支持的语言字符集较大时,大规模多语言ASR系统通常使用字节级表示。字节级表示的紧凑性和通用性使ASR模型可以使用更小的输出词汇表,因此提供了更大的灵活性。UTF-8是多语言ASR中常用的字节级表示,但它并不是专门为直接优化机器学习任务而设计的。通过使用自动编码器和向量量化,我们展示了可以优化ASR的字节级表示并提高准确性。我们提出的框架可以整合来自不同模态的信息,并提供纠错机制。在英语/普通话听写任务中,我们展示了使用这种方法构建的双语ASR模型可以比UTF-8表示提高5%的相对误差率。
  • 图表
  • 解决问题
    优化字节级表示以提高自动语音识别(ASR)的准确性。
  • 关键思路
    使用自编码器和向量量化来优化字节级表示,提高ASR的准确性。
  • 其它亮点
    论文使用了自编码器和向量量化来优化字节级表示,提高ASR的准确性。实验结果表明,这种方法在英语/普通话口述任务中的表现比UTF-8表示法优越5%。
  • 相关研究
    最近的相关研究包括基于深度学习的ASR模型和使用其他字节级表示方法的研究,如UTF-8和byte-pair encoding(BPE)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论