Navigating Tabular Data Synthesis Research: Understanding User Needs and Tool Capabilities

2024年05月31日
  • 简介
    在快速发展的数据驱动应用时代,研究和实践中对数据的需求不断增加。当没有真实数据可用时(例如由于隐私规定),合成数据已成为一种替代选择。合成表格数据面临着独特而复杂的挑战,特别是处理(i)缺失值,(ii)数据集不平衡,(iii)多样的列类型和(iv)复杂的数据分布,同时保留原始数据集中存在的(i)列相关性,(ii)时间依赖性和(iii)完整性约束(例如功能依赖)。虽然在生成模型的背景下最近取得了实质性进展,但目前没有适用于表格数据的通用解决方案,选择适合特定任务的正确工具因此并不是一项简单的任务。在本文中,我们调查了表格数据合成(TDS)的最新技术,通过定义一组功能和非功能需求来研究用户的需求,并总结了实现这些需求所面临的挑战。此外,我们评估了36种流行的研究TDS工具在这些需求方面的性能,并开发了一个决策指南,以帮助用户找到适合其应用的TDS工具。由此产生的决策指南还确定了重要的研究空白。
  • 图表
  • 解决问题
    本论文旨在调查和评估当前表格数据合成(TDS)领域的研究现状,探讨TDS工具的功能和非功能需求,并针对这些需求对36种常见的TDS工具进行性能评估。
  • 关键思路
    本论文提出了一种基于功能和非功能需求的TDS工具选择方法,该方法可以帮助用户选择适合其应用程序的TDS工具,并且识别了当前TDS领域的重要研究缺口。
  • 其它亮点
    本论文对TDS领域的36种常见工具进行了广泛的性能评估,并提出了一种基于需求的工具选择方法。此外,本论文还分析了TDS领域的挑战和未来研究方向,并提供了一个公开的TDS工具列表。
  • 相关研究
    与本文相关的研究包括:1)基于生成模型的TDS方法,如CTGAN和SDV;2)TDS领域的应用,如隐私保护和数据共享;3)TDS工具的性能评估方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论