Classist Tools: Social Class Correlates with Performance in NLP

2024年03月07日
  • 简介
    自从William Labov对语言社会阶层化的基础研究(Labov,1964)以来,语言学一直致力于探索社会人口特征与语言产生和感知之间的联系。但是,虽然有强有力的证据证明社会人口特征在语言中的作用,但它们在自然语言处理(NLP)中很少被使用。年龄和性别有一定的代表性,但Labov最初的目标——社会经济地位——明显缺失。然而它很重要。我们通过实证研究表明,NLP对社会经济地位较低的群体存在劣势。我们用社会阶层、族裔和地域语言差异来注释一个包含95K个电影话语的语料库,并测量NLP系统在三个任务(语言建模、自动语音识别和语法错误纠正)上的性能。我们发现显著的性能差异可以归因于社会经济地位、族裔和地理差异。随着NLP技术变得越来越普遍和日常化,他们必须适应所有语言变体,以避免给已经边缘化的群体带来不利影响。我们主张在未来的语言技术中纳入社会经济阶层。
  • 图表
  • 解决问题
    探索自然语言处理(NLP)中社会经济地位对性能的影响,以及如何解决这个问题。
  • 关键思路
    论文通过对电影语料库进行标注并进行三项任务的实验,证明社会经济地位、种族和地理差异对NLP系统的性能产生了显著影响,提出未来的语言技术应该包括社会经济地位的考虑。
  • 其它亮点
    论文使用了95K个电影语料库进行实验,并开源了数据集和代码。实验结果表明社会经济地位、种族和地理差异对NLP系统的性能产生了显著影响。
  • 相关研究
    最近的相关研究包括:《Socioeconomic Status and Language Acquisition: Contributions from a Low-Income Home Visiting Program》、《Sociolinguistics and Natural Language Processing》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论