Wrangling Data Issues to be Wrangled: Literature Review, Taxonomy, and Industry Case Study

2024年05月25日
  • 简介
    数据质量对于依赖数据的产品的用户体验至关重要。作为数据质量问题的解决方案,研究人员已经开发出了各种针对不同类型问题的分类法。然而,虽然一些现有的分类法几乎是全面的,但是过于复杂限制了它们在数据问题解决方案开发中的可操作性。因此,最近的研究人员提出了一组更简洁的数据问题类别,以提高可用性。虽然更简洁,现代数据问题标签有时会过度迎合解决方案系统,导致分类法不是互斥的。因此,不同的类别有时会在确定问题类型时重叠,或者相同的类别在研究中具有不同的定义。这妨碍了解决方案的开发并混淆了问题的检测。因此,基于文献综述的观察和我们的产业合作伙伴的反馈,我们提出了一个包括两个不同维度的数据质量问题的综合分类法:属性维度代表内在特征,结果维度表示问题的表现形式。通过重新定义这些类别,我们标记了我们产业合作伙伴数据仓库中报告的数据问题。标记的问题为我们提供了每种类型问题的分布情况的概要,以及哪些类型的问题需要最多的精力和关注来处理。我们的工作旨在解决现代数据质量问题工程中广泛适用的分类法规则,帮助实践者和研究人员了解他们的数据问题并估计解决问题所需的工作量。
  • 作者讲解
  • 图表
  • 解决问题
    提出一种维度分类的数据质量问题分类方法,解决现有分类方法过于复杂、不易操作的问题。
  • 关键思路
    将数据质量问题分为属性维度和结果维度两个维度,重新定义问题分类,提高可操作性。
  • 其它亮点
    实验使用了工业界数据仓库的数据进行问题分类,为数据质量问题解决提供了实际参考。该方法可以帮助从业者更好地理解数据问题和估计解决问题所需的努力。
  • 相关研究
    相关研究主要是现有的数据质量问题分类方法,如现有分类方法过于复杂,不易操作等问题。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问