- 简介理解机器学习模型的决策过程对于确保可信的机器学习至关重要。《数据 Shapley》是一项关于数据估值的里程碑式研究,通过评估每个数据对模型准确性的贡献来推进这种理解。然而,多次模型重新训练的资源密集型和耗时性质对于将数据 Shapley 应用于大型数据集带来挑战。为了解决这个问题,我们提出了 CHG(Conduct of Hardness and Gradient)得分,该得分近似了单次模型训练期间每个数据子集对模型准确性的效用。通过推导出 CHG 得分效用函数下每个数据点的 Shapley 值的闭式表达式,我们将计算复杂度降低到与单个模型重新训练相当,比现有方法提高了指数级。此外,我们采用 CHG Shapley 进行实时数据选择,展示了其在识别高价值和噪声数据方面的有效性。CHG Shapley 通过高效的数据估值促进了可信模型训练,引入了一种新的以数据为中心的可信机器学习视角。
-
- 图表
- 解决问题提高数据估值效率,以实现可信机器学习
- 关键思路提出 CHG(Conduct of Hardness and Gradient)分数,通过单次模型训练来近似估计每个数据子集对模型准确性的效用,然后使用 CHG Shapley 推导出每个数据点的 Shapley 值,从而将计算复杂度降至单次模型训练的级别,实现高效数据估值
- 其它亮点使用 CHG Shapley 进行实时数据选择,证明其在识别高价值和噪声数据方面的有效性;提出了一种新的基于数据的可信机器学习方法,为可信机器学习引入了新的数据中心视角
- 相关研究包括 Data Shapley 研究,以及关于机器学习中数据选择和估值的其他研究
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流