- 简介衡量个别样本的价值对于许多数据驱动任务至关重要,例如深度学习模型的训练。最近的文献见证了在开发数据估值方法方面的大量努力。主要的数据估值方法基于博弈论中的Shapley值,沿着这条道路提出了各种方法。尽管基于Shapley值的估值具有坚实的理论基础,但它完全是一种基于实验的方法,迄今为止还没有构建估值模型。此外,当前的数据估值方法忽略了输出值的可解释性,尽管可解释的数据估值方法对于数据定价等应用非常有帮助。本研究旨在回答一个重要问题:数据估值是否可学习且可解释?学习的估值模型具有几个理想的优点,例如固定数量的参数和可重用的知识。可解释的数据估值模型可以解释为什么一个样本有价值或无价值。为此,提出了两个新的数据价值建模框架,其中一个多层感知器(MLP)和一个新的回归树分别用作模型训练和可解释性的特定基模型。在基准数据集上进行了大量实验。实验结果肯定了问题的答案。我们的研究为评估数据价值开辟了一条新的技术路径。可以在许多不同的数据驱动任务中构建大型数据估值模型,这可以促进数据估值的广泛应用。
-
- 图表
- 解决问题构建一个可学习和可解释的数据估值模型,解决数据估值的问题。
- 关键思路提出了两种基于神经网络的数据估值模型框架,其中一个用于模型训练,另一个用于解释模型。
- 其它亮点论文在多个基准数据集上进行了广泛实验,证明了所提出的方法的有效性和可行性。值得关注的是,该研究提出的方法可以在不同的数据驱动任务中构建大型数据估值模型,从而促进数据估值的广泛应用。
- 近年来,基于Shapley值的数据估值方法已经成为研究热点。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流