Extrapolating Large Language Models to Non-English by Aligning Languages
Wenhao Zhu, Yunzhe Lv, Qingxiu Dong, Fei Yuan, Jingjing Xu, Shujian Huang, Lingpeng Kong, Jiajun Chen, Lei Li
[Nanjing University & Peking University & Shanghai AI Lab]
通过对齐语言将大型语言模型推广到非英语
-
大语言模型(LLM)的语言能力主要基于英语,对非英语语言支持不足。 -
提出通过跨语言指令微调来激活LLM的非英语语言能力。具体方法:
(1) 用翻译任务数据和跨语言通用任务数据进行指令微调,建立不同语言之间的语义对齐。
(2) 翻译任务数据直接促进语义对齐,通用任务数据帮助LLM学习遵循指令。
(3) 使用公开可得到的WIKIMATRIX和NEWSCOMMENTARY数据集构建翻译任务指令,操作简单易扩展。 -
实验结果表明,该方法提升的x-LLaMA模型在XQUAD、MLQA等跨语言数据集上优于仅用英语训练的基线,平均提升42.5%。 -
细致分析发现,对中文人文类任务提升显著,但不同学科间差异较大,需要进一步优化。 -
x-LLaMA模型的翻译能力也显著优于比对方法,并遵循随数据量增长的缩放律。 -
与仅靠目标语言预训练相比,使用平行数据指令微调建立语义对齐效率更高。
动机:现有的大型语言模型在非英语语种上的表现较差,本文旨在通过语义对齐来增强非英语语种上的预训练语言模型的能力。
方法:通过利用翻译任务数据和跨语言通用任务数据对预训练语言模型进行指令微调,建立跨语言模型。
优势:实验结果表明,跨语言模型在六种非英语语种上比英语指令微调的模型性能提高了42.50%。此外,跨语言模型在中文人文任务上也取得了显著的改进,优于英语指令微调的模型8.2%。
提出一种方法,通过语义对齐来增强预训练语言模型在非英语语种上的能力,发现在翻译任务数据中引入非英语文本对提升非英语能力特别有效。
https://arxiv.org/abs/2308.04948
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢