Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities

2024年04月27日
  • 简介
    本研究通过对英文语料库进行初始训练,使得跨语言持续预训练大型语言模型(LLM)能够利用大量的英语语言资源并降低预训练成本。我们通过扩展Llama 2的词汇表以包括日语字符,并在大型日语网络语料库上进行持续预训练,构建了具有增强日语能力的LLM Swallow。实验结果证实,通过持续预训练,日语任务的性能显著提高,且随着训练数据量的增加而单调增加,直到100B令牌。因此,Swallow在英语和日语上均比从头开始训练的其他LLM表现更好。持续预训练效果的分析表明,它特别适用于日语问答任务。此外,为了阐明从英语到日语的跨语言持续预训练的有效方法,我们研究了词汇表扩展的影响以及并入平行语料库的效果。结果表明,除了摘要任务外,通过词汇表扩展获得的效率对性能没有负面影响,并且结合平行语料库的使用增强了翻译能力。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在通过跨语言持续预训练大型语言模型,提高日语任务的性能表现。同时,研究人员还探索了从英语到日语的跨语言持续预训练的有效方法。
  • 关键思路
    通过将日语字符加入Llama 2的词汇表,并在大型日语网络语料库上进行持续预训练,构建了具有增强日语能力的Swallow LLM。实验结果表明,持续预训练对日语任务的性能有显著提高,且持续预训练的训练数据量越大,性能表现越好。
  • 其它亮点
    论文中使用了大量的实验数据和多种指标来评估Swallow LLM的性能,同时也探究了不同方法对模型性能的影响。此外,研究人员还提出了一些关于跨语言持续预训练的有效方法和技巧。
  • 相关研究
    最近的相关研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Multilingual Universal Sentence Encoder for Semantic Retrieval》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问