A Survey on Data Quality Dimensions and Tools for Machine Learning

简介

机器学习（ML）技术已经在我们社会的几乎所有方面变得重要，数据质量（DQ）对于ML模型的性能、公平性、鲁棒性、安全性和可伸缩性至关重要。在数据为中心的人工智能中，由于数据庞大且复杂，传统的探索性数据分析（EDA）和交叉验证（CV）面临挑战，强调了掌握DQ工具的重要性。在本次调查中，我们回顾了过去5年中的17种DQ评估和改进工具。通过介绍这些工具中嵌入的DQ维度、指标和主要功能，我们比较了它们的优缺点，并提出了开发开源DQ工具的路线图，以用于ML。基于对挑战和新兴趋势的讨论，我们进一步强调了大型语言模型（LLMs）和生成式人工智能在ML的DQ评估和改进中的潜在应用。我们相信这份全面的调查可以增进人们对ML中DQ的理解，并推动数据为中心的人工智能的进步。本次调查中调查的文献清单可在GitHub上找到：https://github.com/haihua0913/awesome-dq4ml。
图表
解决问题

数据质量对机器学习模型的性能、公平性、鲁棒性、安全性和可扩展性至关重要。本文旨在回顾近五年来17种数据质量评估和改进工具，比较它们的优缺点，并提出开发面向机器学习的开源数据质量工具的路线图。
关键思路

本文回顾了17种数据质量评估和改进工具，介绍了其中嵌入的数据质量维度、指标和主要功能。并比较了它们的优缺点，并提出了开发开源数据质量工具的路线图。
其它亮点

本文介绍了17种数据质量评估和改进工具，比较了它们的优缺点，并提出了开发开源数据质量工具的路线图。文章还讨论了大语言模型和生成式人工智能在数据质量评估和改进中的潜在应用。
相关研究

最近的相关研究包括：1.《数据质量评估的综述》；2.《数据质量和数据挖掘技术》；3.《数据质量的自动化评估方法》等。

A Survey on Data Quality Dimensions and Tools for Machine Learning

评论