- 简介在语言模型中实现公平性仍然是一个长期的挑战,因为训练数据中存在固有的偏见,这些偏见可能被模型延续并影响下游任务。最近的方法采用昂贵的重新训练或尝试在推理过程中进行去偏置,通过限制模型输出与一组有偏见的模板或示例进行对比。然而,它们没有解决公平性的主要目标,即在不同人口群体之间保持公平性。在这项工作中,我们认为,在给定上下文下,为一个人口群体生成无偏见的输出需要意识到其他人口群体在相同上下文下的输出。为此,我们提出了Counterfactually Aware Fair InferencE(CAFIE)框架,该框架动态比较模型对不同人口群体的理解,以生成更公平的句子。我们使用不同大小的基础语言模型和三个不同的数据集进行了广泛的实证评估,并发现CAFIE优于强基线模型。CAFIE产生了更公平的文本,并在公平性和语言建模能力之间取得了最佳平衡。
-
- 图表
- 解决问题如何在语言模型中实现公平性,避免因为训练数据的偏见导致模型输出的不公平?
- 关键思路通过比较不同人口群体的模型理解,动态生成更公平的句子,实现公平性。
- 其它亮点提出了Counterfactually Aware Fair InferencE (CAFIE)框架,使用不同大小的基础语言模型和三个不同的数据集进行了广泛的实证评估,结果表明CAFIE优于强基线模型,同时提高了公平性和语言建模能力。
- 相关论文:1. Mitigating Unwanted Biases with Adversarial Learning(Brian Hu Zhang等,CMU);2. Fairness Constraints: Mechanisms for Fair Classification(Matt Kusner等,Alan Turing Institute);3. Learning Fair Representations(Matt Kusner等,Alan Turing Institute)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流