Inference-Time Rule Eraser: Fair Recognition via Distilling and Removing Biased Rules

简介

机器学习模型通常基于性别、种族和其他社会属性等带偏见的特征进行预测，这在社会应用中（如招聘、银行和刑事司法等）会带来重大的公平风险。传统的解决这个问题的方法包括使用具有公平感知优化目标的重新训练或微调神经网络。然而，由于需要大量的计算资源、复杂的工业测试和相关的二氧化碳排放，这些方法可能是不切实际的。此外，常规用户通常无法微调模型，因为他们无法访问模型参数。在本文中，我们介绍了一种新方法——推理时间规则擦除器(Eraser)，它是一种旨在通过在推理过程中从部署的模型中删除带偏见的决策规则而不改变模型权重来解决公平性问题的方法。我们首先通过贝叶斯分析建立了修改模型输出以消除带偏见规则的理论基础。接下来，我们提出了Eraser的具体实现，包括两个阶段：(1)将带偏见规则从部署的模型中提取出来形成一个额外的补丁模型，(2)在推理过程中从部署的模型输出中删除这些带偏见规则。广泛的实验验证了我们方法的有效性，并展示了它在解决AI系统公平性问题方面的卓越性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决人工智能模型中存在的公平性问题，尤其是在社会应用中，如招聘、银行和刑事司法。
关键思路

提出了一种名为Eraser的新方法，通过在推理期间从部署的模型中删除有偏决策规则来解决公平性问题，而无需改变模型权重。
其它亮点

Eraser方法通过贝叶斯分析将模型输出进行修改，以消除有偏规则，并在推理期间从输出中删除这些规则。实验验证了该方法的有效性，并展示了其在解决AI系统公平性问题方面的卓越性能。
相关研究

传统方法包括使用公平性优化目标重新训练或微调神经网络，但这些方法可能由于计算资源、复杂的工业测试和相关的CO2足迹而不切实际。最近的相关研究包括：《A survey on bias and fairness in machine learning》、《Fairness in Machine Learning: A Survey》等。

Inference-Time Rule Eraser: Fair Recognition via Distilling and Removing Biased Rules

提问交流

提问交流