- 简介大型语言模型(LLMs)在高资源语言任务中展现了出色的翻译能力,但在低资源语言中,它们的表现受到预训练时多语言数据不足的限制。为了解决这个问题,我们投入了35,000个A100-SXM4-80GB GPU小时,对LLaMA系列模型进行了广泛的多语言持续预训练,使其能够支持100多种语言的翻译。通过对诸如词汇扩展和数据增强等训练策略的全面分析,我们开发了LLaMAX。值得注意的是,LLaMAX在不牺牲其泛化能力的情况下,与现有的开源LLMs相比,实现了显著更高的翻译性能(超过10个spBLEU点),并在Flores-101基准测试中与专业翻译模型(M2M-100-12B)表现相当。广泛的实验表明,LLaMAX可以作为一个强大的多语言基础模型。代码和模型可公开获取。
- 图表
- 解决问题论文致力于解决低资源语言翻译问题,即在预训练过程中缺乏多语种数据的情况下,如何提高大型语言模型在低资源语言上的翻译性能?
- 关键思路通过在LLaMA系列模型上进行大规模的多语种持续预训练,采用词汇扩展和数据增强等训练策略,开发了LLaMAX,能够支持100多种语言的翻译。与现有的开源LLM相比,LLaMAX在不损失泛化能力的情况下,实现了显著更高的翻译性能,并在Flores-101基准测试上表现出与专门的翻译模型(M2M-100-12B)相当的水平。
- 其它亮点论文通过大量实验验证了LLaMAX的稳健性和多语种性能,并公开了代码和模型。值得关注的是,LLaMAX不仅在翻译任务上表现出色,还可以作为一个强大的多语种基础模型,为其他自然语言处理任务提供支持。此外,论文还探讨了数据增强和词汇扩展等训练策略的有效性,并对不同语言的翻译性能进行了比较分析。
- 最近在这个领域中,也有其他研究致力于提高低资源语言翻译的性能,例如《Unsupervised Multilingual Representation Learning for Low-Resource Cross-Lingual NER》、《Unsupervised Cross-lingual Representation Learning at Scale》等。
沙发等你来抢
去评论
评论
沙发等你来抢