Investigating Gender Bias in Turkish Language Models

简介

语言模型主要是在网络数据上进行训练的，这些数据通常包含社会刻板印象和偏见，这些模型可能会继承这些偏见，从而在下游任务或应用中放大这些偏见，这可能会带来潜在的负面影响。然而，先前的研究主要集中在英语上，尤其是在性别偏见的背景下。尤其是像土耳其这样的语法上性别中性的语言鲜有研究，尽管它们代表着与具有可能不同的偏见影响的语言模型不同的语言特性。在本文中，我们填补了这一研究空白，并调查土耳其语言模型中性别偏见的重要性。我们建立在现有的偏见评估框架之上，并通过翻译现有的英语测试和创建新的测试来扩展这些框架，旨在测量土耳其语境中的性别偏见。具体而言，我们还评估土耳其语言模型对库尔德人的嵌入式种族偏见。根据实验结果，我们将可能的偏见归因于不同的模型特征，例如模型大小、多语言性和训练语料库。我们公开了土耳其性别偏见数据集。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究土耳其语言模型中的性别和族裔偏见问题，填补了土耳其语言领域的研究空白。
关键思路

通过翻译已有的英文测试和创建新测试来评估土耳其语言模型中的性别和族裔偏见，分析可能造成偏见的模型特征，如模型大小、多语言性和训练语料库。
其它亮点

论文将土耳其语言模型的性别和族裔偏见问题引入到研究中，提供了一个新的视角。研究团队开发了新的测试来评估土耳其语言模型中的偏见，同时还翻译了已有的英文测试。他们还公开了土耳其性别偏见数据集。
相关研究

最近的相关研究主要集中在英语语言模型中的性别偏见问题，如“Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings”和“Lipstick on a Pig: Debiasing Methods Cover up Systematic Gender Biases in Word Embeddings But do not Remove Them”。

Investigating Gender Bias in Turkish Language Models

提问交流

提问交流