- 简介这项研究探讨了使用大型语言模型(LLMs)将英语翻译成马姆拜语,这是一种在东帝汶使用的低资源奥斯特罗尼西亚语言,大约有20万名母语使用者。利用从马姆拜语手册和一个本地说话者翻译的其他句子中提取的新颖语料库,我们研究了在这种低资源情况下,利用少量样本的LLM提示进行机器翻译(MT)的有效性。我们的方法包括策略性地选择平行句子和词典条目进行提示,旨在提高翻译准确性,使用开源和专有的LLMs(LlaMa 2 70b、Mixtral 8x7B、GPT-4)。我们发现,包括提示中的词典条目和通过TF-IDF和语义嵌入检索的句子混合,显著提高了翻译质量。然而,我们的研究结果显示,在测试集中翻译表现存在明显差异,从语言手册材料中的BLEU分数最高达21.2,而在本地说话者提供的测试集中最高仅为4.4。这些结果强调了评估低资源语言机器翻译的多样化和代表性语料库的重要性。我们的研究提供了有关低资源MT的少量LLM提示的见解,并为马姆拜语提供了一个初始语料库。
- 图表
- 解决问题本文旨在探讨在低资源语言环境下,使用大型语言模型(LLMs)将英语翻译成马姆拜语的效果,以及通过少量样本的LLM提示来提高机器翻译的准确性。
- 关键思路本文使用少量的平行句子和词典条目进行LLM提示,以提高翻译质量。研究发现,将词典条目包含在提示中,以及使用TF-IDF和语义嵌入检索的混合句子可以显著提高翻译质量。
- 其它亮点本文的实验设计了一个新的语料库,并使用了多个开源和专有的LLMs。结果表明,在测试集上翻译性能存在巨大差异,语言手册的BLEU分数最高可达21.2,而由本土人提供的测试集最高仅为4.4。本文提供了马姆拜语的初始语料库,并为低资源MT提供了少量LLM提示的见解。
- 最近的相关研究包括使用LLMs进行低资源语言翻译的其他工作,如《Transfer Learning for Low-Resource Neural Machine Translation with a Centralized Language Model》和《Zero-shot Learning for Low-Resource Neural Machine Translation with Multilingual Neural Language Models》。
沙发等你来抢
去评论
评论
沙发等你来抢