SiloFuse: Cross-silo Synthetic Data Generation with Latent Tabular Diffusion Models

2024年04月04日
  • 简介
    合成的表格数据对于分享和增强数据非常重要,特别是对于拥有专有数据的企业而言。然而,现有的合成器是为中央存储的数据设计的。因此,在特征分布在多个数据孤岛的实际场景中,需要在本地存储数据,这些合成器很难应对。我们介绍了SiloFuse,这是一个新颖的跨数据孤岛表格数据高质量合成框架。为了确保隐私,SiloFuse采用了分布式潜在表格扩散架构。通过自编码器,为每个客户端的特征学习潜在表示,掩盖其实际值。我们采用堆叠式分布式训练来提高通信效率,将轮数减少到一个步骤。在SiloFuse下,我们证明了垂直分区合成的数据重构是不可能的,并通过使用我们的基准框架量化了隐私风险,进行了三次攻击。在九个数据集上的实验结果展示了SiloFuse相对于集中式扩散合成器的能力。值得注意的是,SiloFuse在相似性和实用性方面的百分点分别比GAN高43.8和29.8。通信实验表明,相对于训练迭代次数增加而增加的端到端训练成本,堆叠式训练的成本是固定的。此外,SiloFuse证明了对特征排列和不同数量的客户端具有鲁棒性。
  • 作者讲解
  • 图表
  • 解决问题
    解决跨多个数据隔离区域的表格数据合成问题,现有的合成器难以处理分布在多个隔离区域的特征,需要在本地存储数据。
  • 关键思路
    使用分布式潜在表格扩散结构和自动编码器来保证隐私,学习每个客户端特征的潜在表示,遮盖其实际值。使用堆叠式分布式训练来提高通信效率,减少轮数。
  • 其它亮点
    实验结果表明,SiloFuse在类似GAN的合成器中具有更高的相似性和效用,且对特征排列和客户端数量变化具有鲁棒性。论文还提出了三种攻击方法来量化隐私风险。
  • 相关研究
    相关研究包括GANs、分布式合成器、隐私保护数据合成等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问