- 简介表格数据是常见的,但通常不完整,体积较小,并且由于隐私问题而受到访问限制。合成数据生成提供了潜在的解决方案。存在许多度量来评估合成表格数据的质量;然而,我们缺乏对许多度量的客观、连贯的解释。为了解决这个问题,我们提出了一个评估框架,其中有一个单一的、数学的目标,即合成数据应该从观察数据的同一分布中抽取。通过对目标的各种结构分解,这个框架让我们首次能够推断出任何一组度量的完整性,并统一现有的度量,包括源自忠实度考虑、下游应用和基于模型的方法的度量。此外,该框架激励了无模型基线和一系列新的度量标准。我们评估了结构信息合成器和由深度学习驱动的合成器。使用我们的结构化框架,我们展示了明确表示表格结构的合成数据生成器在小型数据集上表现优于其他方法。
-
- 图表
- 解决问题提出一个评估合成表格数据质量的框架,解决现有评估指标多且没有一致解释的问题。
- 关键思路提出一个基于数学目标的框架,要求合成数据应该与观察数据从同一分布中抽取,将现有指标进行结构分解,统一了现有指标,同时提出了新的指标。
- 其它亮点实验表明,显式表示表格结构的合成数据生成器优于其他方法,尤其是在小型数据集上。
- 相关研究包括合成数据生成器的研究,以及合成数据质量评估的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流