Measuring Cross-lingual Transfer in Bytes

2024年04月12日
  • 简介
    多语言预训练已经成为解决语言资源缺乏挑战的成功方法。这些模型可以将知识传递到目标语言,只需最少或没有样例。最近的研究表明,单语言模型也具有类似的能力,但其传递机制仍不清楚。一些研究探讨了语言污染和句法相似性等因素。新兴的研究方向表明,语言模型学习的表示包含两个组成部分:一个是语言特定的,另一个是与语言无关的。后者负责传递更通用的知识。然而,这些属性在不同的目标语言中缺乏全面的探索。为了调查这个假设,我们进行了一个实验,灵感来自于转移的缩放定律的工作。我们测量了从源语言到目标语言转移的数据量,并发现从不同语言初始化的模型在跨语言设置下与目标语言表现类似,这令人惊讶,因为传输到10种不同的目标语言(如西班牙语、韩语和芬兰语)的数据量非常相似。我们还发现,这种转移与语言污染或语言接近度无关,这加强了模型依赖于与语言无关的知识的假设。我们的实验为衡量多少数据代表预训练期间学习的与语言无关的表示打开了新的可能性。
  • 图表
  • 解决问题
    研究多语言预训练模型和单语言预训练模型的跨语言迁移能力,探究其背后的机制
  • 关键思路
    语言模型的表示包含语言特定部分和语言通用部分,后者是跨语言迁移的关键
  • 其它亮点
    通过实验发现,不同语言的预训练模型在跨语言迁移时表现相似,且跨语言迁移与语言污染和语言相似度无关,证实了语言模型的语言通用部分对跨语言迁移的重要性
  • 相关研究
    与该论文相关的研究包括“Scaling Laws for Transfer Learning”和“Investigating Transfer Learning Across Languages and Domains”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论