- 简介性别中性代词在西方语言中越来越普遍。然而,最近的评估表明,英语自然语言处理系统无法正确处理性别中性代词,存在抹杀和误用非二元性别个体的风险。本文研究了荷兰的一个指代消解系统在处理性别中性代词(特别是“hen”和“die”)方面的表现。与英语中单数they的长期存在相比,这些代词在荷兰仅于2016年才被引入。我们还比较了两种去偏见技术在非二元性别语境下的指代消解系统的效果:反事实数据增强(CDA)和去词汇化。此外,由于代词表现可能难以从像LEA这样的通用评估指标中解释,我们引入了一种创新的评估指标——代词得分,直接表示正确处理的代词比例。我们的结果显示,与有性别的对应词相比,性别中性代词的表现有所下降。然而,尽管去词汇化无法改善表现,CDA显著缩小了有性别和性别中性代词之间的表现差距。我们进一步表明,CDA在资源有限的情况下仍然有效,这种有效性还延伸到以前未见的新代词,这些代词目前使用较少,但在未来可能会受到欢迎,这强调了在资源和计算成本较低的情况下实现有效的去偏见的可行性。
- 图表
- 解决问题本论文旨在解决英文自然语言处理系统在处理性别中性代词时出现的问题,以避免非二元个体被抹去或被错误地性别化。同时,论文还试图比较两种去偏见技术在处理非二元语境下的共指消解系统中的效果。
- 关键思路论文提出了一种反事实数据增强技术(CDA),可以有效地缩小性别中性代词和性别化代词之间的性能差距,并且可以在低资源环境下使用。
- 其它亮点论文使用了荷兰语中的性别中性代词进行实验,并引入了一种新的评估指标——代词得分,以直接表示正确处理的代词比例。实验结果表明,CDA技术可以在处理性别中性代词时显著提高性能。此外,论文还提到了未来可能出现的新代词,这表明CDA技术具有可持续性和适用性。
- 在这个领域中,最近的相关研究包括《Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods》、《A Survey of Gender Bias Detection in Natural Language Processing》等。
沙发等你来抢
去评论
评论
沙发等你来抢