DRUGONE

医疗人工智能模型有望提升全球范围内获得高质量诊断服务的机会。然而,这些模型所依赖的训练数据通常包含敏感患者信息,这些信息可能通过隐私攻击被暴露。以往研究主要从整体层面量化这类攻击的成功率,即把数据集中所有记录放在一起评估攻击效果。因此,单个患者所面临的隐私风险仍然缺乏深入理解,尤其是在医疗数据中,一个患者往往会向训练集贡献多条相似记录。


研究人员开展了较早的患者级医疗 AI 隐私审计之一,重点关注成员推断攻击。这类攻击试图判断某一特定个体的数据是否曾被用于训练某个模型。研究人员在多种医疗数据集上发现,即使整体攻击表现看起来接近随机猜测,对于某些个体患者而言,攻击仍然可能达到近乎完美的成功率。研究人员进一步发现,随着模型容量增加,处于高攻击成功风险中的患者数量显著增加;同时,按疾病状态、自我报告种族、保险类型、性别或影像采集协议划分时,代表性不足的患者群体承受了不成比例的高攻击成功率。总体而言,这些发现表明,仅使用整体隐私指标会严重低估个体患者的真实隐私风险。研究人员也指出,目前尚不清楚这种差异化风险是否会扩展到成员推断攻击之外的其他攻击类型,因此未来需要发展能够覆盖所有数据贡献者的风险评估与缓解技术。

医疗人工智能具有改善健康结局的巨大潜力,尤其是在专业医疗资源稀缺的地区,它可以帮助扩大诊断能力和医疗服务可及性。然而,AI 的部署也带来了新的安全与隐私挑战。当不可信用户能够通过预测接口访问模型时,他们不仅可能窃取模型参数,也可能实施隐私攻击,从而推断出模型训练数据中包含的敏感信息。


隐私攻击能够让攻击者推断训练数据贡献者的个人信息。成员推断攻击是一类典型攻击,其目标是判断某位患者的数据是否被纳入某个模型的训练集中。成员身份是否构成隐私泄露,取决于训练人群和模型部署场景。如果模型训练自一般人群,成员身份本身可能并不敏感;但如果模型训练自某个特定疾病、特定中心或特定治疗人群,那么成功推断成员身份就可能直接暴露患者的疾病状态或治疗经历。例如,对于一个基于常规血液检查和临床数据预测抗癌免疫治疗疗效的模型,如果攻击者能判断某人属于该训练集,就可能间接获知该个体患有癌症。


随着越来越多医疗 AI 模型使用敏感患者数据进行训练并进入临床或公共应用场景,系统性的隐私风险评估变得非常重要。然而,既有研究通常把攻击成功率汇总到数据集整体层面。这种做法会把风险平均化,掩盖记录级和患者级的差异。现实中,患者往往贡献多条记录,这些记录之间高度相似,因此单个患者承受的风险可能远高于整体指标显示的水平。考虑到医疗数据是网络犯罪的重要目标,而单纯的伪匿名化已经越来越被认为不足以保护高维医疗数据中的个体身份,理解 AI 隐私攻击对单个患者造成的真实威胁十分必要。


研究人员在本文中表明,如果医疗 AI 模型在缺乏保护措施的情况下部署,可能会给数据贡献者带来显著隐私风险。当训练集成员身份本身能够揭示敏感医学信息时,这种风险尤其突出。研究人员对多个用于标准诊断任务的监督分类 AI 模型进行了患者级隐私审计,使用七个大型真实世界医疗数据集,覆盖医学影像、心电图和电子健康记录等多种数据类型。结果显示,成员推断攻击的成功率在患者之间分布极不均衡:一方面,某些患者几乎完全暴露在攻击之下,而另一些患者几乎不受影响;另一方面,训练集中代表性不足的患者群体往往在最容易受到攻击的记录中被过度代表。



方法

研究人员围绕医疗诊断模型开展成员推断攻击审计。首先,研究人员使用多个真实世界医疗数据集训练目标模型,数据类型包括胸部 X 线影像、皮肤病图像、眼底图像、乳腺 X 线摄影、心电图以及急诊电子健康记录。对于每个数据集,研究人员训练大量目标模型,每个模型使用随机患者子集作为训练数据,从而能够比较某条记录被纳入训练和未被纳入训练时模型输出置信度的差异。研究人员将这种差异用于估计记录级成员推断攻击成功率,并进一步把同一患者所有记录中的最高风险作为患者级风险。研究人员还模拟了现实攻击场景,在攻击者仅能通过预测接口访问模型、甚至只有有限参考模型或部分目标记录信息的情况下评估攻击效果。此外,研究人员比较了不同模型容量、不同差分隐私保护强度以及不同患者亚组之间的风险差异,以判断隐私风险如何随模型规模、隐私保护和群体代表性发生变化。



结果

通过简单假设检验攻击 AI 模型

许多 AI 模型在部署时会通过预测接口向用户开放服务。例如,用户输入一张胸部 X 光片,模型返回患肺炎的概率。这种黑盒访问方式看似有限,但不可信用户仍然可以仅凭模型输出实施成员推断攻击。成员推断攻击的基本思想是判断某条目标记录是否属于模型训练集。攻击之所以可能成功,是因为 AI 模型通常会对训练数据给出略高于非训练数据的预测置信度。


研究人员关注当前较先进的似然比成员推断攻击。这类攻击把成员推断转化为一个假设检验问题:在目标模型对某条记录给出的预测置信度下,比较“该记录不在训练集中”和“该记录在训练集中”这两种假设哪一种更可能成立。为了估计这两种情况下的置信度分布,攻击者可以使用参考模型。参考模型最好与目标模型具有相似架构,并使用与目标训练数据相似的数据训练,但并不一定必须完全相同。


研究人员指出,某些更强攻击可能需要访问模型参数、训练过程中的参数更新,甚至修改模型架构。但这些假设对于谨慎部署的实际医疗 AI 系统并不总是现实。相比之下,本文研究的攻击只需要对目标模型查询一次,即获得目标记录的预测结果,因此更接近现实中的低门槛攻击。尤其值得注意的是,这类攻击发生在模型训练完成之后,因此联邦学习或群体学习等保护训练数据治理过程的方法,并不能直接防止这种已部署模型上的成员推断攻击。


从整体风险转向患者级风险

传统成员推断攻击评估通常基于整体 ROC 分析。由于训练大量 AI 模型成本较高,以往研究往往只训练一个目标模型,然后把数据集中所有记录的成员推断结果汇总起来计算整体攻击成功率。这种做法虽然实用,却无法告诉研究人员攻击对某一条记录或某一位患者是否特别有效。


为解决这一问题,研究人员提出了一种估计记录级和患者级成员推断脆弱性的方法。研究人员训练大量目标模型,每个模型使用随机患者子集作为训练数据。对于每条训练记录,研究人员分别收集“包含该记录的模型”和“不包含该记录的模型”在该记录上的预测置信度,从而构建两类经验分布。基于这些分布,可以估计该记录对应的成员推断攻击成功率。较高的攻击 AUC 表示较高隐私风险:攻击者可以在较低假阳性率下以较高敏感度判断该记录是否属于训练集。


由于一个患者通常贡献多条记录,只要攻击者成功识别其中一条记录的成员身份,就可能暴露该患者的训练集成员身份。因此,研究人员将患者所有记录的风险取最大值,作为患者级隐私风险。这个处理方式比简单平均更符合隐私泄露场景,因为攻击者通常只需要一次成功推断即可获知患者是否参与了训练数据。

图1:成员推断攻击与隐私风险评估策略。


攻击开源医疗 AI 模型

研究人员首先展示了现实攻击的可行性。他们针对 TorchXrayVision 库中的两个开源胸部 X 线模型进行攻击,目标模型分别对应 CheXpert 和 MIMIC-CXR。研究人员采用一种更低成本的成员推断攻击方法,该方法只需要一个或两个参考模型,而不需要训练大量参考模型。


在模拟现实攻击时,研究人员假设攻击者无法访问目标模型的训练集,也受到计算资源限制。因此,他们只使用一个已经预训练好的 PadChest 模型作为参考模型,对 CheXpert 和 MIMIC-CXR 模型发起攻击。在这种离线攻击设置中,攻击者无需额外训练参考模型,只需获得参考模型和目标模型对相关数据的预测置信度即可。这样的攻击可以在普通硬件上完成,甚至不需要 GPU。


研究人员将 CheXpert 和 MIMIC-CXR 中的记录组合起来进行评估,并分别把其中一个数据集视为目标模型的成员数据,另一个视为非成员数据。结果显示,攻击在整体层面已经达到明显高于随机猜测的成功率。研究人员也强调,由于成员和非成员数据之间存在分布差异,这一设置不能与标准随机采样评估完全直接比较;但在真实攻击场景中,分布差异恰恰很可能存在,因此这一结果具有重要现实意义。


某些患者面临近乎完美的攻击成功率

在证明现实攻击可行之后,研究人员进一步考察成员推断攻击对单个患者隐私的影响。研究人员在多个医疗数据集上训练大量目标模型,并采用现代模型训练策略,例如数据增强、权重衰减和学习率调度,同时采取措施减少过拟合。尽管每个目标模型只使用约一半可用患者数据训练,这些模型仍然获得了接近已发表基线的诊断性能。


研究人员在所有数据集和模型中都发现了一小部分高度脆弱的患者。患者级攻击成功率的分布显示,虽然大多数患者的风险并不高,但仍有少数患者的攻击 AUC 接近 1,意味着攻击者几乎可以可靠判断这些患者的数据是否用于训练。与此同时,传统整体 ROC 曲线和整体攻击 AUC 往往接近随机猜测,从而错误地暗示模型整体隐私风险较低。这个结果说明,平均意义上的攻击成功率并不能准确反映个体患者的隐私风险。


对于两个非影像数据集,即急诊电子健康记录和心电图数据,研究人员还模拟了攻击者只能访问部分目标记录的情况。即便攻击者只知道患者的基本临床信息,例如年龄、性别、主诉和生命体征,或者只能访问十二导联心电图中的单个导联信号,仍然有一部分患者保持较高攻击风险。这意味着成员推断攻击并不总是需要完整医疗记录,部分信息也可能足以暴露某些患者的训练集成员身份。


研究人员随后测试差分隐私保护是否能够降低这些风险。结果显示,随着隐私保护增强,患者级成员推断攻击风险下降。总体上,差分隐私可以有效缓解攻击,但在部分强隐私保护场景中,仍会出现记录级保护不足以覆盖患者级风险的情况。这是因为患者通常贡献多条记录,记录级保护并不等同于患者级保护。研究人员因此指出,若要充分保护患者隐私,未来应考虑患者级差分隐私核算,而不仅仅是记录级核算。


更大的模型带来更高风险

近年来,AI 的许多进步来自模型和数据规模的扩大。研究人员因此进一步考察模型容量对成员推断攻击成功率的影响。在皮肤病图像数据集和胸部 X 线数据集上,研究人员训练了不同容量的模型,包括宽残差网络和视觉 Transformer,并在可行情况下使用不同图像分辨率进行训练。


结果显示,模型容量越大,成员推断攻击在整体层面和患者层面的成功率通常越高。尤其是在患者级风险上,更大模型会使高度脆弱患者的比例显著增加,有时增加一个数量级。对于皮肤病图像数据集,模型容量提升带来了明显诊断性能增益,但同时也显著增加了患者级近乎完美攻击成功的风险。例如,当模型从较小的宽残差网络扩展到更大的视觉 Transformer 后,攻击 AUC 高于 0.95 的患者比例显著上升。


在更大的 CheXpert 数据集中也观察到类似趋势,尽管整体攻击风险低于皮肤病数据集。研究人员指出,在 CheXpert 中,视觉 Transformer 的诊断表现并未超过宽残差网络,这可能与自然图像预训练对医学灰度影像的迁移价值有限有关。总体上,这些结果表明,模型规模化不仅影响性能,也会改变患者隐私风险分布。更强模型可能更好地学习训练数据中的长尾样本,而这些长尾样本正是更容易被攻击识别的对象。

图2:成员推断攻击对个体患者造成显著隐私风险。


攻击成功率在患者亚组之间存在差异

受到医疗 AI 诊断性能在不同患者亚组之间可能存在差异这一现象的启发,研究人员进一步分析隐私风险是否也存在群体差异。研究人员重点关注最脆弱的记录,即处于成员推断攻击 AUC 最高百分位的记录,并比较不同患者亚组在这些高风险记录中的出现频率与其在整体数据集中的比例是否一致。


研究人员发现,当按疾病状态、自我报告种族、性别、影像采集协议或健康保险类型划分患者时,极端成员推断攻击风险在不同亚组之间并不均匀。多数比较中,高风险记录的亚组构成与整体数据集构成存在显著差异。例如,在急诊电子健康记录数据集中,黑人患者、使用 Medicaid 保险的患者以及被诊断为癌症的患者,在最脆弱记录中出现的频率高于其在整体数据集中的比例。


在乳腺 X 线摄影数据集中,模型训练任务是预测乳腺密度,而不是直接预测肿瘤发现。然而,具有良性肿瘤发现或疑似恶性肿瘤发现的记录,在最脆弱记录中仍然被过度代表。同样,几乎全脂肪型乳腺或极高密度乳腺这类相对少见的影像类型,也更频繁地出现在极端风险记录中。这说明即便模型并未直接使用某些敏感疾病标签作为训练目标,数据中的罕见或非典型特征仍可能增加成员推断攻击风险。


为了理解这种差异背后的原因,研究人员进一步分析了各亚组规模与攻击风险之间的关系。结果显示,较大的正向残差主要出现在数据集中占比较小的群体中,即代表性不足的群体往往在最脆弱记录中被过度代表。研究人员观察到,群体规模与风险残差之间存在弱到中等程度的负相关。这表明,训练数据中的群体规模差异至少部分解释了患者亚组之间的成员推断攻击风险差异。

图3:患者亚组之间的极端成员推断攻击风险存在显著差异。



讨论

研究人员开展了较早的医疗 AI 患者级隐私审计。该研究在三个方面推进了既有隐私审计工作。首先,它将分析重点从记录整体转向患者层面,这对于真实临床数据集尤其重要,因为一个患者常常贡献多条相似记录。其次,它表明标准整体攻击成功率会低估真实隐私风险,即使在很低假阳性率下评估整体攻击表现,也无法揭示某些个体患者面临的近乎完美攻击风险。第三,它证明了以往在低维基准数据集中观察到的成员推断攻击脆弱性,同样存在于大型真实临床数据集中,而且在医疗场景下可能更关键。


研究人员认为,AI 隐私审计的报告标准需要改变。仅报告整体攻击 AUC 或整体 ROC 曲线是不够的,因为这会把高风险个体掩盖在平均值之下。未来的隐私审计应当报告个体数据贡献者层面的攻击成功率;如果缺乏患者级或个体级标识符,至少也应报告记录级风险。


研究人员还发现,随着模型变大,易受成员推断攻击的患者数量大幅增加。这一现象与理论研究相符:对于长尾数据分布,模型要在测试时获得更好性能,往往需要更好地拟合训练集中不典型或罕见的记录,而这些记录也更容易被攻击识别。因此,患者隐私与模型性能之间可能存在不可避免的权衡,尤其是在罕见疾病或少数群体样本不足的场景中。研究人员建议,在采用更大模型追求性能提升时,应同时认真评估其带来的个体隐私风险。


研究人员进一步指出,极端隐私风险在患者亚组之间分布不均。一些群体即便人类专家难以通过图像直接区分,例如胸部 X 线中的自我报告种族亚组,也可能表现出不同的攻击风险。这意味着实际部署中可能存在未被观察到的隐私风险差异。研究人员发现,代表性不足的患者群体往往在最易受到成员推断攻击的记录中被过度代表,而多数群体则常常相反。这个发现与既有健康不平等问题相互呼应:边缘化或少数群体不仅可能面临较差健康结局,也可能在医疗 AI 发展中承担更高隐私风险。如果这些群体同时获得较差模型性能和较高隐私风险,可能进一步削弱他们对医疗 AI 的信任,并降低他们贡献训练数据的意愿,从而形成恶性循环。


虽然本文重点研究的是诊断型判别模型,但研究人员认为结果也可能影响生成式医疗 AI 的隐私风险评估。成员推断攻击可以促进训练数据提取攻击,而训练数据提取攻击已经在大型语言模型、扩散图像生成模型和生产级语言模型中被证明可行。本文方法原则上也可以用于生成模型的记录级或患者级成员推断风险估计,但这需要大量计算资源,因此未来需要探索更可扩展的近似方法。


为了释放医疗 AI 的全部潜力,模型需要在大规模医疗数据上训练,而这依赖于患者对数据使用过程的信任。研究人员认为,差分隐私等具有数学可验证性的风险缓解方法是最有前景的解决方案。差分隐私通过在训练或微调过程中向参数更新加入噪声,限制任意个体数据对最终模型的影响,从而保护每个数据贡献者的隐私。研究人员的实验表明,更强差分隐私保护能够有效降低所有患者的成员推断攻击成功率。不过,完全缓解所有患者的风险可能需要比以往认为更强的保护,并且应优先采用患者级差分隐私,而不是只对单条记录提供保护。


总之,研究人员提供了证据表明,成员推断攻击可能非常有效地破坏个体数据贡献患者的隐私。医疗 AI 模型及其部署场景应当被评估:一旦攻击者成功推断训练集成员身份,可能获得哪些敏感信息。为了防止隐私伤害,研究人员建议对存在脆弱性的模型采用可验证的风险缓解策略,并结合严格的访问控制。

整理 | DrugOne团队


参考资料


Knolle, M.A., Menten, M.J., Jungmann, F. et al. Disparate privacy risks from medical AI. Nature (2026). 

https://doi.org/10.1038/s41586-026-10688-0

内容为【DrugOne】公众号原创转载请注明来源

内容中包含的图片若涉及版权问题,请及时与我们联系删除