LLMClean: Context-Aware Tabular Data Cleaning via LLM-Generated OFDs

2024年04月29日
  • 简介
    机器学习的影响正在迅速扩大,现在已经成为从企业战略到工业4.0进展的决策过程中不可或缺的一部分。人工智能的效力在很大程度上取决于训练阶段使用的数据质量,优秀的数据质量与最佳性能密切相关。数据清洗工具,特别是那些利用本体框架或上下文模型中的功能依赖的工具,在增强数据质量方面起着重要作用。然而,制定这些上下文模型是一项艰巨的任务,需要大量资源和专业知识,通常需要领域专家的专业知识。 鉴于这些挑战,本文介绍了一种创新的方法,称为LLMClean,用于自动生成上下文模型,利用大型语言模型分析和理解各种数据集。LLMClean包括一系列动作,从分类数据集开始,提取或映射相关模型,最终合成上下文模型。为了展示其潜力,我们开发和测试了一个原型,将我们的方法应用于来自物联网、医疗保健和工业4.0领域的三个不同数据集。我们评估的结果表明,我们的自动化方法可以实现与人类专家制定的上下文模型相当的数据清洗效果。
  • 图表
  • 解决问题
    本文旨在解决数据清洗中构建上下文模型的难题,提出了一种基于大型语言模型的自动化上下文模型生成方法LLMClean。该方法旨在利用大型语言模型分析和理解各种数据集,从而自动生成上下文模型。
  • 关键思路
    LLMClean方法包括一系列操作,从对数据集进行分类开始,提取或映射相关模型,最终合成上下文模型。通过对物联网、医疗保健和工业4.0领域的三个不同数据集的测试,证明了该自动化方法可以达到与人类专家构建上下文模型相当的数据清洗效果。
  • 其它亮点
    该方法的亮点在于利用大型语言模型自动生成上下文模型,避免了需要领域专家的人力和资源成本。实验结果表明,LLMClean方法可以在数据清洗方面达到与人类专家相当的效果。该方法的应用前景广阔,可以在工业、医疗保健等领域中帮助提高数据质量。
  • 相关研究
    在相关研究中,有一些研究也关注于利用自然语言处理技术解决数据清洗问题,如《A Survey of Natural Language Processing Techniques for Cleaning and Preprocessing Text Data》和《Data Cleaning: Overview and Emerging Challenges》等。此外,也有一些研究探索了利用机器学习和深度学习技术来提高数据清洗的效率和准确性,如《Deep Learning for Entity Matching: A Design Space Exploration》和《Deep Learning for Data Cleaning: A Case Study》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论