- 简介在当前自动语言生成的领域中,由于现有模型越来越多地支持多语言,因此需要理解、评估和减轻人口统计偏差的影响。为了解决这个问题,我们提出了 MASSIVE MULTILINGUAL HOLISTICBIAS (MMHB) 数据集和基准测试,该数据集包括最初的八种语言,约 600 万个句子,代表了 13 个人口统计轴。我们提出了一种自动构建方法,通过利用有限的人工注释,进一步扩大 MMHB 句子的语言覆盖范围和规模。我们的方法利用多语言句子构建中的占位符,并采用系统化的方法独立翻译句子模式、名词和描述符。结合人工翻译,该技术精心设计占位符,以动态生成多个句子变体,并显著减少人工翻译工作量。翻译过程经过精心设计,避免了以英语为中心的观点,并包括所有需要的语言形态变化,从而改进了最初的英语 HOLISTICBIAS。最后,我们利用 MMHB 报告了机器翻译任务中的性别偏见和添加毒性的结果。在性别分析方面,MMHB 揭示了:(1) 缺乏性别鲁棒性,男性语义句子的 chrf 分数平均比女性语义句子高出近 4 个点,(2) 倾向于过度泛化为男性形式,使用男性参考文献进行评估时,平均报告超过 12 个 chrf 分数,比使用女性参考文献时高。MMHB 触发的添加毒性高达 2.3%。
-
- 图表
- 解决问题解决问题:本论文提出了一个多语言的数据集MMHB,用于评估和减少自然语言生成中的人口统计偏见。同时,论文也探讨了机器翻译任务中的性别偏见和有害信息问题。
- 关键思路关键思路:本论文提出了一种自动构建方法,利用占位符和系统翻译来扩大MMHB数据集的语言覆盖范围和规模,同时减少人工翻译的工作量。论文还使用了MMHB数据集来评估性别偏见和有害信息问题。
- 其它亮点其他亮点:本论文的自动构建方法在多语言生成中具有广泛的应用价值。MMHB数据集的提出可以帮助研究人员更好地评估和减少自然语言生成中的人口统计偏见。实验结果显示,机器翻译任务中存在性别偏见和有害信息问题,需要进一步解决。论文中使用的数据集和代码已经开源。
- 相关研究:近期的相关研究包括《Addressing Gender Bias in Machine Translation with Curriculum Learning》、《Mitigating Gender Bias in Natural Language Processing: Literature Review》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流