Enhancing Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems

2024年03月18日
  • 简介
    这项研究旨在填补机器翻译主要关注高资源语言(HRLs),而台湾闽南语等低资源语言(LRLs)相对未开发的空白。我们开发了一种台湾闽南语和繁体中文以及英语之间的双语翻译模型,利用预先训练的 LLaMA2-7B 模型来利用台湾闽南语汉字和繁体中文之间的拼音相似性。我们的实验涉及台湾闽南语各种书写系统之间以及台湾闽南语和其他高资源语言之间的翻译任务。我们发现,使用有限的单语语料库还进一步提高了模型的台湾闽南语能力。然后,我们利用我们的翻译模型将所有台湾闽南语书写系统标准化为闽南汉字,从而进一步提高性能。此外,我们引入了一种评估方法,结合反向翻译和 GPT-4,以确保即使对于 LRLs,也能可靠地评估翻译质量。这项研究有助于缩小台湾闽南语的资源差距,并从实证角度研究了基于 LLaMA 2 的预训练和微调的优点和局限性。
  • 图表
  • 解决问题
    本论文旨在解决低资源语言(LRLs)翻译问题,以台湾闽南语为例。研究探讨如何建立台湾闽南语与汉语和英语之间的双向翻译模型,并提高模型在台湾闽南语方面的表现。
  • 关键思路
    论文采用预训练Llama2-7B模型,利用台湾闽南语汉字与汉语之间的相似性,建立双向翻译模型,并通过有限的单语语料库进一步提高模型在台湾闽南语方面的表现。同时,通过标准化所有台湾闽南语写作系统,进一步提高翻译性能。
  • 其它亮点
    论文的亮点包括使用Llama2-7B模型解决低资源语言翻译问题,提出了一种新的评估方法,包括反向翻译和GPT-4,以确保可靠的翻译质量评估。实验设计全面,使用了多个数据集,同时开源了代码。
  • 相关研究
    最近的相关研究包括使用不同的深度学习模型进行翻译,如Transformer和LSTM。其中一些研究的论文标题包括“Unsupervised Neural Machine Translation with Weight Sharing”和“Neural Machine Translation of Rare Words with Subword Units”。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论