How Chinese are Chinese Language Models? The Puzzling Lack of Language Policy in China's LLMs

2024年07月12日
  • 简介
    当代语言模型越来越多地支持多语言,但是中国的LLM开发人员必须要面对语言多样性的复杂政治和商业考虑。中国的语言政策旨在影响公共话语并治理多民族社会,自1949年以来逐渐从多元主义转向更加同化主义的方法。我们探讨了这些影响对当前语言技术的影响。我们评估了由中国公司在18种语言上预先训练的六个开源多语言LLM,涵盖了广泛的中文、亚洲和盎格鲁-欧洲语言。我们的实验表明,中国的LLM在不同语言上的表现与国际LLM无法区分。同样,这些模型的技术报告也显示,除了英语和普通话之外,它们缺乏对预训练数据语言覆盖范围的考虑。通过研究中国的人工智能政策、模型实验和技术报告,我们发现中国在LLM开发中没有任何一致的政策,无论是支持还是反对语言多样性。这个事实令人困惑,因为尽管中国管制人们日常使用的语言以及语言模型的开发,但他们似乎没有关于语言模型中使用的语言的任何政策。
  • 作者讲解
  • 图表
  • 解决问题
    中国的语言政策对多语言语言模型的发展产生了什么影响?中国的语言模型发展是否存在与语言多样性相关的政策?
  • 关键思路
    通过评估六个由中国公司在18种语言上预训练的开源多语言语言模型,论文发现中国的语言模型在多语言性能上与国际语言模型无异。但是,技术报告显示除了英语和中文外,缺乏对预训练数据的语言覆盖率考虑。此外,论文还发现中国的语言模型发展似乎没有任何与语言多样性相关的政策。
  • 其它亮点
    论文使用了六个开源多语言语言模型进行实验评估,发现中国的语言模型在多语言性能上与国际语言模型无异。然而,技术报告显示缺乏对预训练数据的语言覆盖率考虑。论文还发现中国的语言模型发展似乎没有任何与语言多样性相关的政策。
  • 相关研究
    相关研究包括:1.《A Survey of Multilingual Language Models》;2.《Cross-Lingual Language Model Pretraining》;3.《Unsupervised Cross-lingual Representation Learning at Scale》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问