- 简介最近几年,大型语言模型(LLMs)在自然语言处理(NLP)任务中展现了卓越的能力,包括机器翻译。然而,以前的方法主要依赖于迭代过程,如指令微调或持续的预训练,未探索仅基于平行数据训练LLMs的挑战。在这项工作中,我们介绍了PLUME(Parallel Language Model),这是三个2B LLM的集合,具有不同的词汇量大小(32k、128k和256k),专门在以加泰罗尼亚语为中心的平行示例上进行训练。这些模型在16个监督翻译方向和56个零-shot方向上与以前的编码器-解码器架构表现相当。利用这组模型,我们对LLMs的翻译能力进行了彻底的调查,探究了它们的性能、提示的不同元素的影响以及它们的跨语言表示空间。
- 图表
- 解决问题本文旨在探索使用平行数据训练大语言模型(LLMs)的挑战,并提出一种新的方法来训练LLMs以实现机器翻译任务。该方法是否是一个新问题尚不确定。
- 关键思路本文提出了PLUME(平行语言模型),这是三个2B LLM的集合,其特点是仅使用以加泰罗尼亚语为中心的平行数据进行训练。这些模型在16个监督翻译方向和56个零样本方向上的表现与以前的编码器-解码器架构相当。此外,作者还对LLMs的翻译能力进行了深入的研究,探索了不同提示元素的影响以及它们的跨语言表示空间。
- 其它亮点本文的实验设计包括对LLMs的翻译性能进行全面调查,并使用了大量数据集。作者还提供了开源代码和模型,这为研究者进一步探索LLMs的应用提供了便利。此外,本文提出的方法为使用平行数据训练LLMs提供了一种新的思路。
- 最近的相关研究包括使用不同技术和架构的LLMs进行机器翻译,例如T5、GShard和Marian。
沙发等你来抢
去评论
评论
沙发等你来抢