Unconditional Latent Diffusion Models Memorize Patient Imaging Data

2024年02月01日
  • 简介
    生成式潜在扩散模型在医学影像领域有广泛的应用。一个值得注意的应用是提出合成数据作为真实患者数据的替代品,以保护隐私并进行开放数据共享。尽管这些模型有很大的潜力,但它们容易出现患者数据记忆的问题,即模型生成患者数据副本而不是新的合成样本。这破坏了保护患者数据的整个目的,甚至可能导致患者重新识别。考虑到这个问题的重要性,令人惊讶的是,它在医学影像社区中受到的关注相对较少。因此,我们评估了潜在扩散模型在医学图像合成中的记忆问题。我们在CT、MR和X射线数据集上训练2D和3D潜在扩散模型进行合成数据生成。然后,我们利用自监督模型检查了训练数据记忆的数量,并进一步研究了可能导致记忆的各种因素,通过在不同的设置中训练模型。我们观察到所有数据集中都有相当大的数据记忆,其中CT、MRI和X射线数据集中分别有高达41.7%、19.6%和32.6%的训练数据被记忆。进一步分析表明,增加训练数据大小和使用数据增强可以减少记忆,而过度训练会增加记忆。总的来说,我们的结果表明,在进行开放数据共享之前,需要进行记忆感知的合成数据评估。
  • 图表
  • 解决问题
    本文旨在评估潜在扩散模型在医学图像合成中的记忆化现象,以解决隐私保护开放数据共享的问题。
  • 关键思路
    通过训练2D和3D潜在扩散模型,并在不同设置下研究数据记忆化的因素,发现所有数据集中都存在相当大的数据记忆化现象。同时,增加训练数据大小和使用数据增强可以减少记忆化,而过度训练则会加剧记忆化。
  • 其它亮点
    论文使用CT、MR和X-ray数据集进行实验,发现所有数据集中都存在相当大的数据记忆化现象,最高可达41.7%。研究表明需要在开放数据共享前对合成数据进行记忆化评估。论文可供进一步研究使用。
  • 相关研究
    近期相关研究包括:1.《医学图像合成中的深度学习方法》;2.《基于生成对抗网络的医学图像合成》;3.《医学图像合成中的数据增强方法》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论