ManWav: The First Manchu ASR Model

2024年06月19日
  • 简介
    本研究旨在解决自动语音识别(ASR)研究中高资源语言和极低资源语言之间日益扩大的差距,特别关注满洲语,一种濒危语言。满洲语是弱势语言社区在获取最先进技术方面面临的挑战的典型代表。我们开创性地引入了第一个满洲语ASR模型ManWav,利用Wav2Vec2-XLSR-53技术。第一次满洲语ASR的结果非常有希望,特别是在使用我们增强数据进行训练时。利用增强数据微调的Wav2Vec2-XLSR-53模型的CER下降了0.02,WER下降了0.13,与使用原始数据微调的相同基础模型相比,表现更佳。
  • 图表
  • 解决问题
    本论文旨在解决高资源语言和极低资源语言之间自动语音识别(ASR)研究的差距,特别关注于满语这种处于危急状态的语言。研究旨在引入第一个满语ASR模型ManWav,利用Wav2Vec2-XLSR-53。
  • 关键思路
    本论文的关键思路是使用Wav2Vec2-XLSR-53模型和数据增强技术来改善满语ASR的性能,这是第一个针对满语的ASR模型。
  • 其它亮点
    论文介绍了第一个针对满语的ASR模型ManWav,使用Wav2Vec2-XLSR-53模型和数据增强技术来改善满语ASR的性能。实验结果表明,使用增强数据的模型相比使用原始数据的模型,字符错误率(CER)下降了0.02,单词错误率(WER)下降了0.13。该研究对于处于危急状态的语言社区具有重要意义。
  • 相关研究
    最近的相关研究包括“Low Resource Speech Recognition: You Can't Escape Language Variation”和“End-to-End Speech Recognition for Low-Resource Languages with Limited Text Resources”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论