Semantically Corrected Amharic Automatic Speech Recognition

向作者提问

NEW

简介

自动语音识别（ASR）在提高全球口语语言可访问性方面发挥着至关重要的作用。本文针对一种由5000万人主要在非洲东部使用的语言——阿姆哈拉语，构建了一组ASR工具。阿姆哈拉语使用盖兹文字，这是一串字形，间隔表示单词边界。这使得计算处理阿姆哈拉语具有挑战性，因为间隔的位置可能会极大地影响所形成的句子的含义。我们发现，现有的阿姆哈拉语ASR基准测试没有考虑这些间隔，只测量单个字形错误率，导致在野外表现的测量结果明显偏高。本文首先发布了现有阿姆哈拉语ASR测试数据集的纠正转录，使社区能够准确评估进展。此外，我们引入了一种后处理方法，使用变压器编码器-解码器架构将原始ASR输出组织成语法完整且语义有意义的阿姆哈拉语句子。通过对纠正后的测试数据集进行实验，我们的模型提高了阿姆哈拉语语音识别系统的语义正确性，实现了5.5％的字符错误率（CER）和23.3％的单词错误率（WER）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在为非洲东部超过5000万人口使用的阿姆哈拉语构建一组ASR工具，解决阿姆哈拉语ASR中的空格问题，并提出后处理方法，以将原始ASR输出转换为语法完整且语义有意义的阿姆哈拉语句子。
关键思路

本论文的关键思路是通过使用transformer编码器-解码器架构，将原始ASR输出转换为语法完整且语义有意义的阿姆哈拉语句子，并对现有的阿姆哈拉语ASR测试数据集进行修正，以准确评估ASR系统的性能。
其它亮点

本论文通过实验验证了提出的后处理方法的有效性，获得了5.5％的字符错误率（CER）和23.3％的词错误率（WER）。此外，作者还发布了修正后的阿姆哈拉语ASR测试数据集，以便研究人员更准确地评估其模型的性能。值得关注的是，该论文的解决方案可以为其他基于非拉丁字母表的语言的ASR提供借鉴。
相关研究

最近在这个领域中，还有一些相关研究，例如《End-to-End Amharic Speech Recognition Using Deep Neural Networks》、《Amharic Speech Recognition Using Deep Learning》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问