- 简介“大规模多语言”训练多语言模型已被证明会限制其在任何一种语言上的效用,并且在低资源语言上表现特别差。然而,有证据表明,低资源语言可以从定向多语言性中受益,其中模型是在密切相关的语言上进行训练的。为了更加严谨地测试这种方法,我们系统地研究了将预训练模型适应于语言家族的最佳实践。以乌拉尔语系为测试案例,我们采用各种配置来适应XLM-R模型以模拟15种语言;然后我们评估每个实验设置在两个下游任务和11种评估语言上的表现。我们适应的模型明显优于单语和多语言基线。此外,超参数效果的回归分析表明,适应的词汇量对于低资源语言相对不重要,并且低资源语言可以在训练过程中大量上采样,而对高资源语言的性能几乎没有影响。这些结果介绍了在定向环境中执行语言适应的新最佳实践。
- 图表
- 解决问题本论文旨在解决多语言模型在单一语言上的效果较差,特别是对于低资源语言的问题。论文通过针对性的多语言训练,尤其是针对紧密相关的语言家族,来提高低资源语言的效果。
- 关键思路通过系统地研究适应预训练模型到一个语言家族的最佳实践,本论文针对乌拉尔语系进行了实验。论文提出的适应方法在两个下游任务和11种评估语言中均显著优于单语和多语基线。此外,超参数效果的回归分析表明,对于低资源语言,适应词汇大小相对不重要,而且低资源语言可以在训练过程中被大量过采样而对高资源语言的效果影响不大。
- 其它亮点实验使用了15种语言的数据集,采用XLM-R模型进行训练和测试。适应方法的效果显著,超参数效果的回归分析为后续研究提供了指导。
- 近期相关研究包括:1.《Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond》;2.《Unsupervised Cross-lingual Representation Learning at Scale》。
沙发等你来抢
去评论
评论
沙发等你来抢