Cocoon: Semantic Table Profiling Using Large Language Models

2024年04月19日
  • 简介
    数据分析的预处理阶段中,数据分析器扮演着至关重要的角色,通过识别质量问题,如缺失、极端或错误的值。传统上,分析器仅依赖于统计方法,这会导致高误报和漏报。例如,它们可能会错误地标记缺失值,而这种缺失在数据的语义上下文中是预期和正常的。为了解决这些问题,我们引入了Cocoon,这是一个数据分析系统,它将LLM整合到统计分析中,从而赋予其语义。Cocoon通过添加三个步骤:语义上下文、语义概要和语义审核来增强传统的分析方法。我们的用户研究表明,Cocoon非常有效地准确判断异常值是真正需要纠正的错误还是基于现实世界数据集的语义而产生的可接受变化。
  • 图表
  • 解决问题
    本论文旨在解决数据预处理过程中,数据分析者仅依赖传统的统计方法进行数据分析,导致高误报和漏报的问题,提出了一种结合语义的数据分析方法。
  • 关键思路
    本论文提出了Cocoon系统,该系统结合了语义上下文、语义分析和语义审查三个步骤,将LLMs与传统的统计方法相结合,提升了数据分析的精度和准确性。
  • 其它亮点
    论文通过用户研究证明了Cocoon系统在真实数据集上能够准确地判断异常是否需要修正,具有很高的有效性。此外,论文还介绍了Cocoon系统的实验设计和使用的数据集,并提供了开源代码。
  • 相关研究
    在相关研究方面,最近的研究主要集中在数据预处理和数据分析方面,如使用深度学习技术进行数据分析等。其中,与本论文相关的研究包括:《A Survey of Data Preprocessing Techniques》、《Deep Learning for Data Analysis: A Review》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论