Transcribing Bengali Text with Regional Dialects to IPA using District Guided Tokens

2024年03月26日
  • 简介
    将孟加拉语文本准确转录为国际音标(IPA)是一项具有挑战性的任务,这是由于该语言的复杂音系和上下文相关的音变所导致的。对于地方孟加拉方言来说,这一挑战更大,因为这些方言缺乏标准化的拼写约定,存在于这些地区流行的本地和外来词汇以及不同地区之间的语音多样性。本文提出了一种方法来解决这个序列到序列的问题,即在跨越孟加拉国六个地区的新数据集上引入了“区域指导标记(DGT)”技术。关键思想是在生成IPA转录之前,为模型提供有关输入文本的区域方言或“地区”的显式信息。这是通过在输入序列前加上地区标记来实现的,有效地引导模型理解与每个地区相关的独特语音模式。在这个新数据集上,DGT技术被应用于微调几个基于Transformer的模型。实验结果表明DGT的有效性,ByT5模型在测试集中处理高比例的未登录词的能力使其优于像mT5、BanglaT5和umT5这样的基于词的模型。所提出的方法强调了将地方方言信息纳入到具有语音多样性的普遍自然语言处理系统中的重要性。本研究是“Bhashamul”挑战的结果,该挑战致力于解决将带有地方方言的孟加拉文本转录为IPA的问题 https://www.kaggle.com/competitions/regipa/。培训和推理笔记本可通过竞赛链接获得。
  • 图表
  • 解决问题
    本文试图解决的问题是如何将孟加拉语文本转化成国际音标(IPA),特别是针对方言的情况。这是一个新问题,因为方言的存在使得标准化拼写方式不可行,而且不同地区的语音差异较大。
  • 关键思路
    本文提出了一种新的方法,即使用区域指导标记(District Guided Tokens,DGT)技术,通过在输入序列前加上区域标记的方式,将区域语音特征引入到模型中,从而提高转化的准确性。这种方法应用于基于Transformer的模型上,并在新的数据集上进行fine-tune,取得了比其他基于单词的模型更好的效果。
  • 其它亮点
    实验表明,DGT技术的有效性,ByT5模型在测试集中处理了高比例的未登录词,并取得了最佳表现。本文的贡献在于提出了将区域方言信息引入到自然语言处理系统中的重要性,并提供了一个新的解决方案。此外,本文还提供了一个新的数据集和Notebook,供研究者使用和参考。
  • 相关研究
    最近的相关研究包括:《A Survey of Dialectal Arabic Speech Recognition: ASR, Dialect Identification, Resources, and Benchmarks》、《Phonological Variation and its Implications for Automatic Speech Recognition》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论