Semantically Corrected Amharic Automatic Speech Recognition

2024年04月20日
  • 简介
    自动语音识别(ASR)在提高全球口语语言可访问性方面发挥着至关重要的作用。本文针对一种由5000万人主要在非洲东部使用的语言——阿姆哈拉语,构建了一组ASR工具。阿姆哈拉语使用盖兹文字,这是一串字形,间隔表示单词边界。这使得计算处理阿姆哈拉语具有挑战性,因为间隔的位置可能会极大地影响所形成的句子的含义。我们发现,现有的阿姆哈拉语ASR基准测试没有考虑这些间隔,只测量单个字形错误率,导致在野外表现的测量结果明显偏高。本文首先发布了现有阿姆哈拉语ASR测试数据集的纠正转录,使社区能够准确评估进展。此外,我们引入了一种后处理方法,使用变压器编码器-解码器架构将原始ASR输出组织成语法完整且语义有意义的阿姆哈拉语句子。通过对纠正后的测试数据集进行实验,我们的模型提高了阿姆哈拉语语音识别系统的语义正确性,实现了5.5%的字符错误率(CER)和23.3%的单词错误率(WER)。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在为非洲东部超过5000万人口使用的阿姆哈拉语构建一组ASR工具,解决阿姆哈拉语ASR中的空格问题,并提出后处理方法,以将原始ASR输出转换为语法完整且语义有意义的阿姆哈拉语句子。
  • 关键思路
    本论文的关键思路是通过使用transformer编码器-解码器架构,将原始ASR输出转换为语法完整且语义有意义的阿姆哈拉语句子,并对现有的阿姆哈拉语ASR测试数据集进行修正,以准确评估ASR系统的性能。
  • 其它亮点
    本论文通过实验验证了提出的后处理方法的有效性,获得了5.5%的字符错误率(CER)和23.3%的词错误率(WER)。此外,作者还发布了修正后的阿姆哈拉语ASR测试数据集,以便研究人员更准确地评估其模型的性能。值得关注的是,该论文的解决方案可以为其他基于非拉丁字母表的语言的ASR提供借鉴。
  • 相关研究
    最近在这个领域中,还有一些相关研究,例如《End-to-End Amharic Speech Recognition Using Deep Neural Networks》、《Amharic Speech Recognition Using Deep Learning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问