Are Models Biased on Text without Gender-related Language?

简介

性别偏见研究在揭示大型语言模型中的不良行为方面起到了关键作用，揭示了与职业和情感相关的严重性别刻板印象。先前的研究中的一个关键观察是，模型会强化刻板印象，因为训练数据中存在性别相关的相关性。在本文中，我们关注的是训练数据效果不明显的偏见，并回答以下问题：即使在非刻板印象的情况下，语言模型仍然表现出性别偏见吗？为此，我们引入了UnStereoEval（USE），这是一个专门用于研究无刻板印象情境下性别偏见的新框架。USE基于预训练数据统计定义了一个句子级得分，以确定该句子是否包含最少的词性别关联。为了在无性别相关语言的情况下系统地评估流行的语言模型的公正性，我们利用USE自动生成基准测试。通过利用USE的句子级得分，我们还将先前的性别偏见基准（Winobias和Winogender）用于非刻板印象评估。令人惊讶的是，我们发现所有28个测试模型的公平性都很低。具体而言，在无刻板印象的句子中，模型仅表现出公平行为的比例为9％-41％，这表明偏见不仅仅源于性别相关的词语。这些结果引发了关于模型基础偏见来自何处的重要问题，并强调了需要更系统和全面的偏见评估。我们在https://ucinlp.github.io/unstereo-eval上发布了完整的数据集和代码。
图表
解决问题

研究语言模型在非刻板化场景中是否存在性别偏见，探究偏见产生的原因。
关键思路

使用UnStereoEval框架评估语言模型在非刻板化场景中的性别偏见，发现28个受测试模型中只有9%-41%的句子表现出公平行为，说明偏见不仅仅来源于性别相关词汇的存在。
其它亮点

使用UnStereoEval框架评估语言模型在非刻板化场景中的性别偏见，利用预训练数据统计量定义句子级得分，自动生成无性别相关语言的基准测试集。发现28个受测试模型中只有9%-41%的句子表现出公平行为，提出需要更系统和全面的偏见评估，发布了完整的数据集和代码。
相关研究

相关研究包括Winobias和Winogender等先前的性别偏见基准测试，以及许多关于性别偏见和语言模型的研究，如《Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings》和《Lipstick on a Pig: Debiasing Methods Cover up Systematic Gender Biases in Word Embeddings But do not Remove Them》等。

Are Models Biased on Text without Gender-related Language?

评论