DRUGONE

大型语言模型在医学领域展现出重要潜力,许多研究通过在医学数据上继续预训练或微调来提升其医学能力。然而,一个关键问题仍未得到充分回答:大型语言模型在多大程度上会记住医学训练数据,也就是说,它们是否会回忆或再生成在继续预训练或微调过程中见过的内容。


研究人员系统考察了医学大型语言模型中的记忆化现象,重点评估其发生率、被记住内容的特征、记忆化内容的数量,以及可能产生的下游影响。研究覆盖了三种常见的医学适配场景:在医学语料上继续预训练,在标准医学基准上微调,以及在真实世界临床数据上微调。其中,真实临床数据分析包括来自Yale New Haven Health System的超过13,000条唯一住院患者记录。


结果表明,记忆化在医学大型语言模型中普遍存在,而且显著高于通用领域中观察到的水平。继续预训练和微调阶段表现出不同的记忆化特征,并且记忆化具有持久性:在继续预训练阶段被记住的内容中,最高可有87%在后续微调之后仍然保留。研究人员将记忆化分为三类:有益记忆化,例如准确回忆临床指南;无信息量记忆化,例如重复模板化语言;有害记忆化,例如再生成敏感临床内容。研究人员进一步提出实践建议,以促进有益记忆化、减少无信息量记忆化,并缓解有害记忆化,从而在保护患者隐私的同时提升医学应用价值。

大型语言模型代表了基础模型的重要进展,尤其在问答、文本摘要等生成式任务中表现突出,并在零样本和少样本场景中展现出较强能力。然而,在医学等专业领域中,大型语言模型的表现并不一致。一些研究显示,模型在放射学报告发现抽取等特定临床任务中表现良好;另一些研究则指出,模型在临床信息抽取、医学文档分类、疾病诊断等任务中可能表现不足,并可能引入诊断错误和事实幻觉等风险。系统性医学评估也表明,直接将通用大型语言模型用于医学任务,可能造成内容不一致、信息遗漏和虚构输出。一个核心限制是,通用模型往往缺乏领域特异性医学知识和推理能力,从而影响其医学准确性和安全性。


为解决这些问题,许多研究采用继续预训练或监督微调来适配大型语言模型。继续预训练通常是将通用模型进一步在大规模医学语料上训练,例如生物医学文献、临床指南和临床记录,从而捕获医学领域知识。监督微调则常使用标注医学数据,通过指令微调提升模型执行医学任务的能力,例如医学记录摘要、诊断推理、临床记录纠错和疾病预测。这些方法在许多医学应用中提升了效果,也有助于减少幻觉和增强安全性。


然而,医学适配过程中的记忆化问题值得高度关注。记忆化是指模型在生成时回忆或再生成训练中见过的内容。一方面,记忆化可能是有益的。如果模型能记住医学术语、临床指南、药物说明或生物医学知识,它可能在下游任务中表现更准确。另一方面,医学领域的记忆化也带来严重风险。模型可能无意中再生成患者特异性敏感信息,从而造成隐私泄露。此外,领域适配的目标并不是让模型简单重复训练文本,而是让模型掌握医学知识和推理能力。如果模型过度依赖表面复制而非真正理解医学概念,其泛化能力就可能受到限制。大型语言模型本身具有生成性质,这进一步增加了意外披露训练内容或输出不适当内容的风险,也可能阻碍其在医学中的安全采用。


研究人员因此围绕四个方面系统分析医学大型语言模型的记忆化:记忆化发生得有多频繁,模型究竟记住了什么,记住了多少内容,以及这些记忆化内容如何影响医学应用。研究覆盖了医学基础模型和通用大型语言模型,涉及PMC-LLaMA、Meditron、Me-LLaMA、Med-Llama-3、Llama系列和gpt-oss等模型,并分析了多个医学语料、医学问答基准和真实临床记录。整体结果显示,医学适配过程确实提高了模型性能,但同时也显著增加了训练内容被再生成的可能性。



方法

研究人员构建了一个覆盖继续预训练、医学基准微调和真实临床数据微调的记忆化评估框架。在继续预训练场景中,研究人员选取多个公开医学基础语言模型及其对应医学训练语料,给定训练文本的前缀,要求模型生成后续内容,并将生成文本与原始训练文本比较,以检测模型是否再生成连续相同片段。除严格的连续相同词元匹配外,研究人员还使用近似匹配和语义匹配指标,以捕捉不完全逐字复制但高度相似的内容。在标准医学基准微调场景中,研究人员分析MedQA和MedMCQA等医学问答数据,除检测连续文本匹配外,还专门设计了“答案选项再生成”测量:从训练题目中删除一个选项,再要求模型根据题干和其余选项补全被删除选项,从而判断模型是否记住了训练数据中的答案结构。在真实临床数据场景中,研究人员以大型语言模型辅助疾病诊断为案例,使用13,000条唯一住院患者记录进行训练、验证和测试划分,并比较微调前后诊断准确性、记忆化比例以及敏感信息再生成情况。对于敏感信息,研究人员结合自动识别工具和人工审核,检测受保护健康信息以及标准定义之外的潜在敏感临床内容,例如高度敏感诊断、家庭关系、医疗机构名称和治疗细节。

图1|继续预训练大型语言模型中的精确记忆化结果。



结果

继续预训练大型语言模型的记忆化结果

研究人员首先评估了继续预训练阶段产生的记忆化。总体而言,医学基础语言模型的记忆化比例高于其对应的通用基线模型。在临床指南数据集中,Meditron 7B的连续30词元记忆化比例达到10.48%,而其直接基线Llama 2仅为1.23%,LLaMA为1.30%。在同一数据集上,Med-Llama-3相对于Llama 3也表现出类似趋势。在MIMIC-III数据集中,Me-LLaMA的连续30词元记忆化比例达到15.32%,而Llama 2仅为0.10%。这说明,当通用模型被进一步暴露于医学语料时,它们确实更容易再生成医学训练数据中的原文片段。


不过,不同语料之间的记忆化强度并不相同。在生物医学文献数据集上,医学模型与通用模型之间的差异相对较小,尽管医学模型仍通常更高。例如,在PMC全文文章上,Meditron 7B的连续30词元记忆化比例为0.25%,而Llama 2为0.18%,LLaMA为0.11%。一个例外是MEDLINE摘要数据集,在该数据上Meditron 7B与Llama 2的记忆化比例非常接近,这可能提示Llama 2原始预训练语料中已经包含了部分MEDLINE摘要或类似内容。


研究人员进一步分析了影响记忆化比例的因素。模型规模是重要因素之一,较大模型通常具有更高记忆化比例。例如,Meditron-70B在其继续预训练数据上的记忆化比例普遍高于Meditron-7B。在临床指南数据集中,Meditron-70B的连续30词元记忆化比例为21.78%,而Meditron-7B为10.48%。输入长度也是重要因素,较长输入通常会显著提高模型继续生成训练原文的可能性。相比之下,采样温度和top-k等生成超参数对记忆化比例影响有限,说明记忆化不是简单通过调节解码随机性就能可靠消除的问题。


研究人员还分析了记忆化内容在模型输出中的位置。以Meditron-7B在临床指南数据集上的结果为例,模型被要求最多生成500个词元后,记忆化文本主要集中在输出开头的前100个词元中,之后逐渐减少。这意味着在实际评估模型记忆化时,优先检查输出开头区域可能更高效,因为那里更容易出现训练文本再生成。


人工审核进一步显示,模型记住的内容并不全是有害的。研究人员抽样检查了800个连续50词元的记忆化片段,发现模型确实会再生成有用医学内容,包括药物相关信息、用药说明、不良事件、患者护理建议、管理策略、基因和蛋白质等生物医学概念。这些内容可能反映了领域适配带来的有益知识保留。然而,模型也大量再生成样板化语言,例如免责声明、网页说明、格式化声明和重复性文本。这类内容对医学推理或任务性能帮助有限,更像是表面文本复制。


除严格精确匹配外,近似匹配和语义匹配也显示医学模型比通用基线具有更高记忆化水平。这些额外指标识别出的潜在记忆化实例数量可达到精确匹配的约两倍,说明如果只用严格逐字匹配,可能会低估模型对训练内容的实质性再生成。


标准医学基准微调后的记忆化结果

研究人员随后评估了在标准医学问答基准上微调后的记忆化。首先,微调确实提升了模型在保留测试集上的准确率。例如,Meditron-7B在MedQA测试集上的准确率从27.02%提升到47.13%,其他模型也显示出类似提升。这说明医学任务微调能够有效增强模型完成医学问答任务的能力。


然而,微调也引入了不同于继续预训练的记忆化模式。与继续预训练阶段相比,微调模型并不总是在连续30或50词元的严格精确匹配上表现出显著升高,但它们会显著再生成训练题目中被删除的答案选项。例如,在MedQA中,微调后的Med-Llama-3可再生成约15%的被删除答案选项,而Llama 3基线为6.45%,LLaMA为2.80%。在MedMCQA中,类似模式更加明显。这说明,即使模型没有长段逐字复制训练文本,它仍可能记住具体题目结构、选项内容和数据集特异性信息。


一个值得注意的现象是,原始发布版本的PMC-LLaMA微调模型在几乎所有评价指标上都显示出最高记忆化比例。例如,在MedQA上,其连续30词元记忆化比例达到18.20%,在较长输入下甚至可超过40%。研究人员独立复现PMC-LLaMA的微调过程后,发现复现模型并未表现出如此高的记忆化,而是与其他同类微调模型接近。研究人员推测,原始发布模型可能在训练数据上过度微调,从而导致过拟合和记忆化增强。人工检查也发现该模型容易出现重复和幻觉输出,这与高记忆化和低泛化能力之间的关系相符。


继续预训练和微调阶段的记忆化模式具有明显差异。继续预训练数据通常由较长文档组成,因此更容易产生长段逐字记忆化;而微调数据通常由较短的输入—输出样本组成,因此更容易表现为任务特异性记忆化,例如再生成被删除的答案选项。研究人员指出,训练目标的不同也可能造成这种差异。


研究人员还考察了继续预训练阶段记住的内容是否会在后续微调中消失。结果显示,微调并不会显著清除先前的记忆化内容。以Meditron-7B为例,在经过医学问答任务微调后,该模型在原始继续预训练语料上的记忆化比例仅略有变化。进一步比较具体被记住的片段发现,微调模型仍保留了大约70%的预训练阶段精确记忆内容;当输入长度较长时,重叠比例可超过87%。这说明医学大型语言模型的记忆化具有持久性,后续任务微调不仅会保留大量旧记忆,还可能引入新的任务特异性记忆化内容。


近似匹配和语义匹配在微调基准上同样发现了更多潜在记忆化实例。这进一步说明,医学问答微调带来的记忆化并不一定表现为长段逐字复制,也可能表现为选项、答案片段或语义相近内容的再生成。

图2|医学问答基准微调后的答案选项再生成结果。


真实临床数据微调后的记忆化结果

在真实临床数据场景中,研究人员将大型语言模型用于辅助疾病诊断,并比较微调前后的诊断表现和记忆化风险。结果显示,微调能稳定提升诊断准确性。对于Llama-3-Instruct,微调后top-1诊断准确率从48.6%提高到54.8%,top-2从63.2%提高到67.7%,top-3从69.0%提高到71.4%。Med-Llama-3也显示出一致提升,并整体略优于Llama-3-Instruct。按专科分析时,微调在心脏病学和肾脏病学等专科中带来的提升尤其明显,增幅超过10%。这说明真实临床数据微调对医学应用具有实际价值。


与此同时,临床数据微调显著增加了训练内容记忆化。无论是医学基础模型还是通用模型,微调后连续30和50词元记忆化比例均上升。例如,Med-Llama-3在输入长度较短时,连续30词元记忆化比例从0.00%升至4.63%,其他输入长度下也出现类似趋势。Llama-3-Instruct也表现出一致升高。这说明,临床任务性能提升伴随着更高的训练记录再生成风险。


研究人员进一步保存每个训练轮次的模型检查点,以分析记忆化、验证损失和测试准确率之间的关系。结果显示,记忆化在训练早期就明显增加,大约在第3或第4个轮次开始升高,而验证损失仍持续下降到第7个轮次,诊断准确性也在第7个轮次达到峰值。之后,随着继续训练,诊断准确率下降,而记忆化比例继续上升。这说明记忆化并不只是长时间训练导致过拟合后的晚期现象,它可以在训练早期、模型仍在变好的过程中就出现。因此,在医学模型开发中,仅依靠验证损失或准确率选择模型,可能不足以控制记忆化风险。


对敏感信息的分析显示出更直接的隐私风险。研究人员使用自动检测工具和人工核查相结合的方法,在10,000条训练记录对应输出中发现,微调后的Llama-3-Instruct-8B再生成了3,192个受保护健康信息实例。进一步人工检查200个与源文本存在较高重叠的输出后,研究人员发现总计128个潜在敏感信息实例,其中包括30个自动检测工具漏掉的受保护健康信息,以及98个超出标准受保护健康信息定义的敏感内容。这些内容包括高度敏感诊断、家庭关系、医疗机构名称和治疗细节。


这一结果提示,标准自动去标识化虽然是临床数据预处理的重要步骤,但可能并不充分。一方面,自动工具可能漏掉部分受保护健康信息;另一方面,许多潜在敏感内容并不属于传统标识符,却仍可能带来隐私和伦理风险。例如,某些罕见诊断、家庭关系或治疗细节即使不包含姓名、地址等直接标识,也可能使患者被重新识别或造成敏感信息暴露。

图3|真实临床数据微调中的诊断性能、记忆化动态和训练过程变化。



讨论

医学大型语言模型适配过程中普遍存在记忆化

研究人员指出,无论是通过继续预训练构建医学基础模型,还是直接在标注医学数据上微调通用模型,训练数据记忆化都普遍存在。在继续预训练阶段,某些语料上的连续30词元记忆化比例可达到约22%;在标准医学问答基准微调中,模型最多可再生成约18%的被删除答案选项;在真实临床数据微调中,模型在短输入条件下也会出现约5%的连续30词元记忆化比例,并在10,000条训练样本中再生成超过3,000个受保护健康信息实例。


这些记忆化比例明显高于通用领域先前报告的水平。研究人员认为,一个重要原因可能是当前医学适配方法大多直接沿用通用领域训练策略,而没有针对医学数据特点进行充分调整。通用模型的预训练语料往往非常异质,包括网页、新闻、论坛和多种文体,而医学语料更同质,内容和写作风格都较集中,例如指南、病例记录和医学问答。微调数据也常由相近医学任务组合而成,样本规模有限且格式相似。这种同质性可能使模型更容易学习表面模式并再生成训练内容。


医学大型语言模型具有独特记忆化特征

医学大型语言模型中的记忆化并不是单一现象,而是可分为三种类型。第一类是有益记忆化,指模型准确保留医学领域知识,例如临床指南、诊断标准、生物医学概念、药物信息和参考文献内容。这类记忆化有助于提高事实准确性和医学推理能力,是领域适配希望获得的效果。


第二类是无信息量记忆化,指模型再生成模板化语言、免责声明、格式说明、重复声明或结构性标题。这类内容通常无法提升医学推理能力,反而可能表示模型在学习表面文本模式,而不是掌握领域知识。无信息量记忆化可能导致过拟合、泛化差和重复性输出。


第三类是有害记忆化,指模型再生成数据集特异性内容或敏感临床信息。例如,模型在医学问答微调后可能再生成被删除的答案选项,在临床数据微调后可能再生成患者受保护健康信息、临床叙述、影像描述、诊断细节或治疗记录。这类记忆化会降低泛化能力,并可能违反隐私与合规要求。


研究人员还强调,医学模型记忆化具有持久性。继续预训练阶段被记住的内容并不会在后续微调中自动消失,而是大量保留下来。最高可有87%的预训练记忆内容在微调之后仍然存在。与此同时,微调还会增加新的任务特异性记忆化。训练过程分析还显示,记忆化可以在训练早期出现,并不一定只是在训练后期过拟合时才发生。这些特征与通用领域中关于记忆化的部分观察不同,说明医学模型需要专门的记忆化评估和控制策略。


影响记忆化的因素包括模型规模、输入长度、训练阶段和训练轮次。较大模型更容易记住训练内容,较长输入更容易触发原文再生成,更多训练轮次通常伴随更高记忆化比例。继续预训练更倾向于产生逐字长段记忆化,而微调更容易产生任务特异性记忆化。相比之下,常见解码参数对记忆化比例的影响较有限。


记忆化同时影响模型开发和医学采用

记忆化对医学大型语言模型既有积极影响,也有消极影响。积极方面,继续预训练能使模型记住医学术语、临床指南和生物医学文献,微调能让模型更好地遵循医学任务指令并提升诊断准确性。这类有益记忆化可能是医学适配成功的重要组成部分。


消极方面,首先是无信息量记忆化。大量记住免责声明、结构格式和重复性模板可能不会提升下游性能,反而可能使模型更依赖表面模式。某些高记忆化微调模型在面对其他任务时会出现指令跟随失败、重复输出和幻觉,这提示过度表面记忆化可能损害泛化能力。


更严重的是有害记忆化。真实临床数据微调能显著提升疾病诊断性能,但也会带来敏感信息再生成风险。模型可能从训练记录中复制受保护健康信息,甚至再生成传统去标识化工具难以发现的敏感临床内容。研究人员认为,模型开发者和部署方不应只报告准确率、F1值或医学问答成绩,还应同时评估记忆化,尤其是在模型接触真实临床数据时。


建议与社区行动

研究人员提出了围绕三类记忆化的实践建议。对于有益记忆化,应在继续预训练和微调中促进模型学习真正的医学知识,例如临床概念、指南依据和任务相关推理能力,并在后续任务适配中监测这些知识是否被保留。对于无信息量记忆化,应从数据和方法两个角度减少表面重复。数据层面,可以增加训练集的广度和深度,进行去重、聚类和代表性样本选择,过滤低质量或冗余样本。方法层面,可以探索推理导向后训练,让模型学习医学推理和知识结构,而不是简单复述训练文本。


对于有害记忆化,研究人员建议在训练过程中加入抑制数据集特异性记忆的策略,并继续探索隐私保护方法。标准去标识化仍然必要,但不应被视为充分保护。未来可结合差分隐私微调、隐私保护学习、记忆化惩罚、对抗式训练和检索增强生成等方法,减少敏感信息被模型参数吸收和再生成的可能性。检索增强生成尤其值得关注,因为它可以在不重新训练模型的情况下提供领域知识,从而在一定程度上降低模型直接记住敏感训练数据的需求。


研究人员还呼吁医学大型语言模型社区完善报告规范。当前多数医学AI研究仍主要报告准确率或标准基准性能,但对于真实临床应用而言,仅有准确率是不够的。至少应报告严格精确记忆化指标和任务特异性记忆化指标,并在模型开发、微调和部署过程中持续监测记忆化。部署框架也应将记忆化相关漏洞纳入安全、隐私和合规评估体系。

图4|医学大型语言模型中的记忆化类型、代表性示例和推荐策略。


局限性与未来方向

研究人员指出,本研究并未进行针对性攻击来评估模型在最坏情况下能泄露多少训练数据。研究重点是现实中常见的三类医学适配场景,即继续预训练、标准医学基准微调和真实临床数据微调。因此,本研究结果更接近实际开发和使用情境,但并不代表模型在恶意提示、数据抽取攻击或攻击者掌握部分训练片段时的最大泄露风险。未来需要专门研究攻击性和防御性策略,评估模型在对抗条件下的隐私风险。


其次,研究虽然考察了模型规模、训练阶段、输入长度、训练轮次和解码参数等因素,但仍有许多维度未被充分探索。例如,不同提示方式、不同医学任务、不同模型家族和不同训练目标都可能影响记忆化。临床信息抽取、医学报告摘要、出院小结生成、病历纠错等任务也可能呈现不同的记忆化模式。


第三,由于不同医学模型的继续预训练和微调数据不同,且部分模型或数据不可公开获得,研究中无法对所有模型进行完全同质化比较。因此,更合理的比较方式是将每个模型与其对应基线比较,而不是简单跨模型横向排名。这也凸显了建立标准化记忆化评估基准的重要性。


第四,记忆化、过拟合和泛化之间的关系仍需进一步研究。本研究初步显示,记忆化并不一定只出现在过度训练后期,它可能在训练早期就出现,并与验证损失下降和测试准确率提高同时发生。这意味着记忆化可能与模型学习过程深度交织,而不是单纯的训练失败现象。未来需要更系统地研究何时记忆化是有益知识保留,何时变成隐私风险或泛化障碍。


最后,研究人员强调,医学大型语言模型中的记忆化具有双重性。完全消除记忆化并不一定是最佳目标,因为医学模型确实需要保留临床指南、医学概念和药物知识。更合理的方向是区分不同类型的记忆化,并根据医学任务和安全要求决定哪些应被增强、哪些应被抑制。总体而言,本研究为理解医学大型语言模型的记忆化现象提供了系统基准,也提示未来医学AI开发应同时关注性能、泛化、隐私和责任部署。

整理 | DrugOne团队


参考资料


Li, A., Qian, L., Du, M. et al. Memorization in large language models in medicine prevalence characteristics and implications. Nat Commun (2026). 

https://doi.org/10.1038/s41467-026-73779-6

内容为【DrugOne】公众号原创转载请注明来源

内容中包含的图片若涉及版权问题,请及时与我们联系删除