Dynamic data sampler for cross-language transfer learning in large language models

简介

大型语言模型（LLMs）由于其广泛的应用而在自然语言处理（NLP）领域引起了极大的关注。然而，对于非英语语言的LLMs进行训练面临着重大的挑战，这是由于获取大规模语料库和所需的计算资源的困难。在本文中，我们提出了ChatFlow，一种跨语言转移的LLM，以便以一种经济高效的方式训练大型中文语言模型。我们采用中英文和平行语料库的混合方式来持续训练LLaMA2模型，旨在对齐跨语言表示并特别促进知识转移到中文语言模型。此外，我们使用动态数据采样器逐步将模型从无监督预训练过渡到有监督的微调。实验结果表明，我们的方法加速了模型收敛，并实现了优越的性能。我们在流行的中英文基准测试上评估了ChatFlow，结果表明它优于其他在LLaMA-2-7B上进行后训练的中文模型。
图表
解决问题

本论文旨在解决中文语言模型训练中获取大规模语料库和计算资源的困难问题，提出了一种跨语言转移学习的方法，并在此基础上训练了大规模中文语言模型。
关键思路

论文提出的方法是使用中英文和平行语料库混合训练LLaMA2模型，并采用动态数据采样器逐步过渡从无监督预训练到监督微调，以实现跨语言表示的对齐和知识转移，从而在成本效益上训练大规模中文语言模型。
其它亮点

论文使用了动态数据采样器和跨语言转移学习方法，加速了模型收敛并取得了优异的性能。实验结果表明，ChatFlow在流行的中英文基准测试中优于其他后训练于LLaMA-2-7B的中文模型。论文还开源了代码。
相关研究

与本论文相关的研究包括：《Unicoder: A Universal Language Encoder》、《Cross-lingual Language Model Pretraining》等。

Dynamic data sampler for cross-language transfer learning in large language models

评论