Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities

向作者提问

NEW

简介

本研究通过对英文语料库进行初始训练，使得跨语言持续预训练大型语言模型（LLM）能够利用大量的英语语言资源并降低预训练成本。我们通过扩展Llama 2的词汇表以包括日语字符，并在大型日语网络语料库上进行持续预训练，构建了具有增强日语能力的LLM Swallow。实验结果证实，通过持续预训练，日语任务的性能显著提高，且随着训练数据量的增加而单调增加，直到100B令牌。因此，Swallow在英语和日语上均比从头开始训练的其他LLM表现更好。持续预训练效果的分析表明，它特别适用于日语问答任务。此外，为了阐明从英语到日语的跨语言持续预训练的有效方法，我们研究了词汇表扩展的影响以及并入平行语料库的效果。结果表明，除了摘要任务外，通过词汇表扩展获得的效率对性能没有负面影响，并且结合平行语料库的使用增强了翻译能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过跨语言持续预训练大型语言模型，提高日语任务的性能表现。同时，研究人员还探索了从英语到日语的跨语言持续预训练的有效方法。
关键思路

通过将日语字符加入Llama 2的词汇表，并在大型日语网络语料库上进行持续预训练，构建了具有增强日语能力的Swallow LLM。实验结果表明，持续预训练对日语任务的性能有显著提高，且持续预训练的训练数据量越大，性能表现越好。
其它亮点

论文中使用了大量的实验数据和多种指标来评估Swallow LLM的性能，同时也探究了不同方法对模型性能的影响。此外，研究人员还提出了一些关于跨语言持续预训练的有效方法和技巧。
相关研究

最近的相关研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Multilingual Universal Sentence Encoder for Semantic Retrieval》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问