- 简介大规模且经过良好注释的数据集对于推动深度学习应用至关重要,然而往往由单个实体获取成本高昂或不可能。在许多领域,包括医疗领域,依赖数据共享的方法已成为解决这些挑战的关键。虽然有效地增加了数据集的大小和多样性,但数据共享引发了重大的隐私问题。基于k-匿名范例的常用匿名化方法通常无法保留数据的多样性,影响模型的鲁棒性。本文介绍了一种新方法,使用基于大型预训练视觉基础模型提取的特征向量进行训练的条件变分自编码器(CVAE)。基础模型有效地检测和表示跨不同领域的复杂模式,使CVAE能够忠实地捕获给定数据分布的嵌入空间,以生成(样本)多样化、尊重隐私且潜在无限的合成特征向量集。我们的方法在医疗和自然图像领域均优于传统方法,在保留样本隐私的同时展现出更高的数据集多样性和更高的鲁棒性。这些结果凸显了生成模型在数据稀缺和隐私敏感环境中显著影响深度学习应用的潜力。源代码可在 https://github.com/francescodisalvo05/cvae-anonymization 上获得。
- 图表
- 解决问题解决数据共享中的隐私问题,同时保持数据集的多样性和模型的鲁棒性。
- 关键思路使用基于条件变分自编码器(CVAEs)的生成模型,从大型预训练视觉基础模型中提取特征向量进行训练,生成多样性的合成特征向量以保护数据隐私。
- 其它亮点该方法在医学和自然图像领域中均表现出比传统方法更高的数据集多样性和模型鲁棒性,并保持样本隐私。研究使用了开源代码和多个数据集。
- 与本研究相关的其他研究包括k-匿名方法、生成对抗网络(GANs)等。
沙发等你来抢
去评论
评论
沙发等你来抢