CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning

2024年06月17日
  • 简介
    了解机器学习模型的决策过程对确保可信赖的机器学习至关重要。数据估值中的里程碑式研究——Data Shapley通过评估每个数据对模型准确性的贡献,显著推进了这一理解。然而,多次模型重新训练的资源密集型和耗时性质给在大数据集上应用Data Shapley带来了重大挑战。为了解决这个问题,我们提出了CHG(Conduct of Hardness and Gradient)得分,该得分在单次模型训练期间近似估计每个数据子集对模型准确性的效用。通过在CHG得分效用函数下推导每个数据点的Shapley值的闭式表达式,我们将计算复杂度降低到相当于单次模型重新训练的水平,相对于现有方法有指数级的改进。此外,我们采用CHG Shapley进行实时数据选择,展示其在识别高价值和噪声数据方面的有效性。CHG Shapley通过高效的数据估值促进了可信赖的模型训练,引入了一种新的以数据为中心的可信赖机器学习视角。
  • 图表
  • 解决问题
    提高数据估值的效率,以便更好地理解机器学习模型的决策过程,从而实现可靠的机器学习。
  • 关键思路
    提出 CHG(Conduct of Hardness and Gradient)评分方法,用于评估每个数据子集对模型准确性的贡献,通过推导 CHG Shapley 的闭式表达式,将计算复杂度降至单次模型训练的水平,实现数据的高效估值。
  • 其它亮点
    论文提出的 CHG 评分方法可以在单次模型训练中评估数据子集的贡献,相较于多次模型训练的 Data Shapley 方法,计算复杂度指数级降低,能够实现实时数据选择,准确地鉴别高价值和噪声数据,为可靠的机器学习提供了新的数据中心视角。
  • 相关研究
    相关研究包括 Data Shapley、机器学习模型解释、数据选择等领域的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论