Structured Evaluation of Synthetic Tabular Data

2024年03月15日
  • 简介
    表格数据是常见的,但通常不完整,体积较小,并且由于隐私问题而受到访问限制。合成数据生成提供了潜在的解决方案。存在许多度量来评估合成表格数据的质量;然而,我们缺乏对许多度量的客观、连贯的解释。为了解决这个问题,我们提出了一个评估框架,其中有一个单一的、数学的目标,即合成数据应该从观察数据的同一分布中抽取。通过对目标的各种结构分解,这个框架让我们首次能够推断出任何一组度量的完整性,并统一现有的度量,包括源自忠实度考虑、下游应用和基于模型的方法的度量。此外,该框架激励了无模型基线和一系列新的度量标准。我们评估了结构信息合成器和由深度学习驱动的合成器。使用我们的结构化框架,我们展示了明确表示表格结构的合成数据生成器在小型数据集上表现优于其他方法。
  • 作者讲解
  • 图表
  • 解决问题
    提出一个评估合成表格数据质量的框架,解决现有评估指标多且没有一致解释的问题。
  • 关键思路
    提出一个基于数学目标的框架,要求合成数据应该与观察数据从同一分布中抽取,将现有指标进行结构分解,统一了现有指标,同时提出了新的指标。
  • 其它亮点
    实验表明,显式表示表格结构的合成数据生成器优于其他方法,尤其是在小型数据集上。
  • 相关研究
    相关研究包括合成数据生成器的研究,以及合成数据质量评估的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问