BClean: A Bayesian Data Cleaning System

2023年11月11日
  • 简介
    本文介绍了数据清洗的一些基本原则,以及如何利用概率方法,包括贝叶斯方法将脏数据转化为更干净的数据集。然而,现有的概率方法通常假设一个简单的分布(如高斯分布),在实践中常常欠拟合,或需要专家提供复杂的先验分布。这种要求既费时又昂贵,使得这些方法不太适用于实际应用。因此,本文提出了一种名为BClean的贝叶斯清洗系统,具有自动贝叶斯网络构建和用户交互的特点。我们将数据清洗问题重新定义为贝叶斯推断问题,充分利用观察数据集中属性之间的关系和用户提供的任何先验信息。为此,我们提出了一种自动贝叶斯网络构建方法,它利用相似性函数扩展了基于结构学习的功能依赖发现方法,以捕捉属性之间的关系。此外,我们的系统允许用户修改生成的贝叶斯网络,以指定先验信息或更正自动生成过程中发现的不准确性。我们还设计了一个有效的评分模型(称为补偿评分模型),用于贝叶斯推断。为了提高数据清洗的效率,我们提出了几种近似策略,包括图分区、域修剪和预检测。通过在实际和合成数据集上的评估,我们证明BClean能够在数据清洗方面达到高达0.9的F-measure,比现有的贝叶斯方法高出2%,比其他数据清洗方法高出15%。
  • 图表
  • 解决问题
    提出一种自动构建贝叶斯网络并进行数据清洗的方法,解决现有方法中需要专家提供复杂先验分布的问题,同时提高数据清洗的效率和准确性。
  • 关键思路
    将数据清洗问题转化为贝叶斯推断问题,利用自动构建贝叶斯网络的方法来发现属性之间的关系,并结合用户提供的先验信息进行数据清洗。
  • 其它亮点
    论文提出的BClean系统可以在数据清洗中达到0.9的F-measure,比现有贝叶斯方法高出2%以及其他数据清洗方法高出15%。同时,论文还提出了多种近似策略来提高贝叶斯推断的效率,包括图分区、域剪枝和预检测。实验结果表明,BClean系统在真实数据集和合成数据集上都表现出了良好的性能。
  • 相关研究
    与该论文相关的研究包括:基于规则的数据清洗方法、基于统计学习的数据清洗方法、基于贝叶斯方法的数据清洗方法等。其中,与本文最相关的研究包括《Bayesian Data Cleaning》、《A Bayesian Approach to Data Cleaning with Missing Data》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论