Evaluating Large Language Models along Dimensions of Language Variation: A Systematik Invesdigatiom uv Cross-lingual Generalization

2024年06月19日
  • 简介
    大型语言模型展示了一定的跨语言泛化能力,但在未见过的密切相关语言和方言方面,它们相对于高资源语言邻居(HRLN)会表现出性能下降(PD)。然而,我们目前缺乏对哪种语言距离会导致PD的基本理解,以及这种程度有多大的认识。此外,跨语言泛化的研究也受到训练数据中未知数量的CRL语言痕迹的影响,以及低资源相关语言和方言评估数据的缺乏。为了解决这些问题,我们将语音、形态和词汇距离建模为贝叶斯噪声过程,以合成与HRLN可控距离的人工语言。我们分析PD作为基础噪声参数的函数,提供有关模型对隔离和组合语言现象的鲁棒性以及任务和HRL特征对PD的影响的见解。我们计算了真实的CRL-HRLN对数据的参数后验概率,并展示它们遵循人工语言的计算趋势,证明了我们的噪声器的可行性。我们的框架提供了一种便宜的解决方案,即使用其后验概率估计对未见过的CRL的任务性能,以及通过语言距离诊断观察到的CRL的PD,为缓解性能下降提供了原则性方法。
  • 图表
  • 解决问题
    论文旨在研究语言模型在处理未知密切相关语言时的性能下降问题,并探索语言距离对此问题的影响。
  • 关键思路
    通过建立贝叶斯噪声模型来合成不同距离的人工语言,分析模型的鲁棒性和任务特征对性能下降的影响,并计算参数后验概率来评估任务在未知密切相关语言上的表现。
  • 其它亮点
    论文提供了一种简单有效的方法来评估语言模型在未知密切相关语言上的性能,并且通过模型的参数后验概率诊断性能下降的原因。实验使用了合成语言和真实语言数据,结果表明该方法的可行性。
  • 相关研究
    近期的相关研究包括《Cross-Lingual Language Model Pretraining》和《Unsupervised Cross-lingual Representation Learning at Scale》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论