REFRESH: Responsible and Efficient Feature Reselection Guided by SHAP Values

简介

特征选择是构建机器学习模型的关键步骤。通常以准确性为目标来完成此过程，并且对于大规模数据集来说，这可能是繁琐和计算成本高昂的。模型性能特征的其他几个方面，如公平性和鲁棒性，对于模型开发非常重要。由于法规正在推动对更可信模型的需求，因此部署的模型需要进行纠正，以解决与负责任的人工智能相关的模型特征。当特征选择是针对一个模型性能特征（例如准确性）完成时，如果要将特征选择与次要模型性能特征（例如公平性和鲁棒性）作为目标，就需要从头开始进行计算成本高昂的选择过程。在本文中，我们介绍了特征重新选择的问题，以便即使在针对主要目标完成特征选择过程后，仍可以高效地选择特征以满足次要模型性能特征。为了解决这个问题，我们提出了一种名为REFRESH的方法，可以重新选择特征，以便在不必训练多个新模型的情况下实现对模型性能的其他约束。REFRESH的基本算法是一种使用SHAP值和相关性分析的新技术，可以近似预测模型的预测结果，而无需训练这些模型。包括一个大规模贷款违约数据集在内的三个数据集的实证评估表明，REFRESH可以帮助高效地找到具有更好模型特征的备选模型。我们还讨论了基于法规渴望的重新选择和REFRESH的需求。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

本文旨在解决特征重选问题，即在已经进行了特征选择的基础上，如何在考虑次要模型性能特征的情况下高效地重新选择特征。

关键思路

提出了一种名为REFRESH的方法，利用SHAP值和相关性分析来重新选择特征，从而实现在不需要重新训练模型的情况下，提高模型的性能特征。

其它亮点

REFRESH方法可以帮助找到具有更好模型性能特征的替代模型，而无需训练多个新模型。实验结果表明，REFRESH可以在三个数据集上有效地重新选择特征。

REFRESH: Responsible and Efficient Feature Reselection Guided by SHAP Values

提问交流

提问交流