- 简介大型语言模型(LLM)在各种任务中现在表现出接近人类水平的性能,但由于预训练数据的不平衡,其性能在少数几种资源丰富的语言之后急剧下降。受人类第二语言习得过程,特别是代码转换(即在对话中交替使用语言的做法)的启发,我们提出了代码转换课程学习(CSCL)以增强LLM的跨语言迁移能力。CSCL通过逐步训练模型来模拟人类语言学习的阶段,训练内容包括1)词级别代码转换,2)句子级别代码转换,以及3)单语语料库。以Qwen 2作为基础模型,我们展示了CSCL在提高韩语语言迁移方面的有效性,与单语持续预训练方法相比,取得了显著的性能提升。消融研究表明,词级别和句子级别的代码转换显著增强了跨语言迁移,并且课程学习放大了这些效果。我们还将研究扩展到多种语言,包括日语(资源丰富)和印尼语(资源贫乏),并使用另外两个模型(Gemma 2和Phi 3.5)。我们进一步表明,CSCL减轻了语言资源和安全对齐之间的虚假相关性,提供了一个稳健、高效的框架,以实现更公平的语言迁移。我们观察到,CSCL在资源匮乏的环境中特别有效,因为在这些环境中很难获得高质量的单语语料库用于语言迁移。
- 图表
- 解决问题论文试图解决大型语言模型(LLMs)在高资源语言之外的语言性能显著下降的问题,尤其是对于低资源语言。这是一个持续存在的问题,尽管已有多种方法尝试解决,但效果有限。
- 关键思路论文提出了一种新的训练方法——代码切换课程学习(Code-Switching Curriculum Learning, CSCL),该方法通过模仿人类第二语言习得过程中的代码切换现象,逐步训练模型从词级代码切换到句子级代码切换,再到单语语料库。这种渐进式的训练方式旨在提高跨语言迁移的效果。
- 其它亮点论文通过使用Qwen 2作为基础模型,在韩语上展示了CSCL的有效性,并通过消融实验验证了词级和句子级代码切换对跨语言迁移的显著提升作用。此外,论文还扩展了研究范围,包括日语(高资源)和印尼语(低资源),并使用了Gemma 2和Phi 3.5两个额外的模型。实验结果显示,CSCL在低资源设置下尤其有效,能够显著提高模型的性能。论文还开源了代码,便于其他研究者复现和进一步研究。
- 近年来,关于提高LLMs跨语言迁移能力的研究不断涌现。例如,《Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges》探讨了大规模多语言神经机器翻译中的挑战和发现;《Leveraging Monolingual Data for Multilingual Models via Curriculum Learning》提出了通过课程学习利用单语数据的方法;《Cross-lingual Transfer for Low-resource Languages: A Survey》综述了低资源语言的跨语言迁移方法。
沙发等你来抢
去评论
评论
沙发等你来抢