ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs

2024年06月26日
  • 简介
    本文受到近年来埃及阿拉伯语和英语混用现象的普遍增加的启发,探讨了机器翻译(MT)和自动语音识别(ASR)系统的复杂性,重点研究了将混合使用的埃及阿拉伯语和英语翻译成英语或埃及阿拉伯语的方法。我们的目标是介绍开发这些系统所使用的方法,利用大型语言模型如LLama和Gemma。在ASR领域,我们探讨了Whisper模型在识别混合使用的埃及阿拉伯语方面的应用,详细说明了我们的实验过程,包括数据预处理和训练技术。通过实现一个将ASR与MT集成的连续语音到文本翻译系统,我们旨在克服由有限资源和埃及阿拉伯语方言的独特特点带来的挑战。针对已建立的度量标准进行评估,我们的方法在英语翻译方面取得了56%的显著改进,阿拉伯语翻译方面取得了9.3%的改进。由于混合语言在口语中根深蒂固,因此ASR系统能够有效处理这种现象至关重要。这种能力对于在各个领域实现无缝交互非常重要,包括商业谈判、文化交流和学术论述。我们的模型和代码可作为开源资源使用。代码:\url{http://github.com/ahmedheakl/arazn-llm}},模型:\url{http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e}。
  • 图表
  • 解决问题
    本文旨在探讨机器翻译(MT)和自动语音识别(ASR)系统在处理埃及阿拉伯语和英语混用的情况时所面临的挑战,并提出相应解决方案。
  • 关键思路
    本文采用大型语言模型LLama和Gemma,探讨利用Whisper模型进行阿拉伯语语音识别的方法,结合ASR和MT技术,实现连续的语音到文本翻译系统。结果表明,本文提出的方法在英语翻译方面相比现有技术有56%的显著提高,在阿拉伯语翻译方面有9.3%的提高。
  • 其它亮点
    本文的实验方法包括数据预处理和训练技巧,代码和模型均可作为开源资源使用。研究成果可在商务谈判、文化交流和学术讨论等领域得到应用。
  • 相关研究
    最近的相关研究包括:1.《基于深度学习的阿拉伯语和英语混合语音识别》;2.《基于神经网络的阿拉伯语和英语混合语音识别》;3.《阿拉伯语和英语混合语音识别的语音增强方法》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论