DRUGONE

理解风险因素之间的交互如何共同影响疾病发生,有助于揭示疾病发展机制并提升风险预测能力。研究人员提出了 survivalFM,这是一种对 Cox 比例风险模型的机器学习扩展,能够高效建模预测变量之间的双变量交互效应,从而用于时间事件(如疾病发病)的建模。该方法基于低秩分解策略,克服了高维交互建模中常见的计算和统计瓶颈。在英国生物样本库的九类疾病数据和多种风险因子中,survivalFM 在 C-index、R² 和连续净重分类指标(NRI)上分别在约 30.6%、41.7%、94.4% 的情境下优于标准模型。尤其是在心血管风险预测任务中,survivalFM 能够捕捉超越传统年龄交互的预测信息。结果表明,系统性交互建模不仅提升预测性能,也为疾病发生机制提供了新的洞见。

在精准医疗与疾病预防的背景下,识别高风险个体具有重要意义。复杂疾病(如心血管疾病、慢性肾病、糖尿病)往往由遗传、环境与生活方式因素共同驱动,单一因素线性建模往往难以准确预测其发病风险。传统的 Cox 比例风险回归模型假设预测变量的效应为线性形式,难以捕捉变量之间的复杂交互。这种简化假设可能导致潜在重要交互信息被忽略,从而影响模型性能与生物学解释力。


虽然加入交互项已被流行病学证实能增强模型表达力,但交互项数量随预测变量的增加而快速增长,传统模型难以高效估计所有可能交互。部分模型尝试仅引入预设的交互项(如与年龄相关),但这限制了新交互发现的可能。此外,独立对每个交互进行统计检验也可能遗漏在多变量背景下才显著的效应。


主要结果


方法设计与模型性能

研究人员开发的 survivalFM 基于 Cox 模型结构,引入因式分解机制估算所有成对交互效应。借助低秩矩阵近似,该方法可在不显著增加参数数量的情况下建模高维数据中的交互信息。


通过对英国生物样本库 50 万人队列中 9 种疾病(如心肌梗死、2 型糖尿病、阿尔茨海默症、肝病、肾病等)进行分析,研究人员在四种预测场景下(标准临床因子、生化与血液计数、代谢组数据、多基因风险评分)对 survivalFM 与标准 Cox 模型进行比较。结果显示:

  • 在 30.6% 的情境中 survivalFM 显著提升 C-index(平均提高 0.0054);

  • 在 41.7% 的情境中提升 R²(平均提高 1.62 个百分点);

  • 在 94.4% 的情境中提高连续 NRI(平均为 0.41);

  • 所有情境中,未见性能显著下降。

此外,即使预测性能改善幅度适中,survivalFM 在对个体风险进行更精准分类方面效果显著。例如:2 型糖尿病模型在连续 NRI 上达到 0.97,意味着约 34% 的病例和 63% 的非病例风险预测得到改善。



临床案例验证:心血管疾病风险预测

研究人员进一步以临床广泛应用的 QRISK3 模型为例,考察 survivalFM 在心血管疾病风险预测中的应用。三种模型被比较:无交互项的 Cox 模型、引入 QRISK3 年龄交互项的模型、survivalFM(引入所有可能交互)。结果表明:

  • survivalFM 在 C-index 上相较基础模型提高 0.0019,优于仅加入年龄交互的增益;

  • 在 R² 上提高了 1.35 个百分点;

  • 在 10% 风险阈值下的分类 NRI 达到 0.0168(较基础模型),且重分类更多事件个体(+3.40%);

  • Kaplan–Meier 分析显示 survivalFM 模型识别的高风险人群能覆盖更多未来心血管事件。



交互解释与变量贡献

survivalFM 模型不仅性能提升,还保留了解释性。模型系数表明,在肝病中,胆固醇指标、体重、性别、吸烟等因素之间的交互增强了预测能力;在 2 型糖尿病中,糖化血红蛋白与葡萄糖等因素的负交互揭示了其生理指标间的耦合关系。


此外,研究人员发现交互项的预测价值主要源自众多小幅度效应的叠加,而非少数强交互项。


样本量依赖性分析

survivalFM 的预测提升随着训练样本量增加而增强,在多数疾病中,当训练集超过 5 万人时其性能才稳定优于传统模型,这说明该方法更适用于大型队列研究。


讨论

研究人员提出的 survivalFM 方法通过引入成对交互建模机制,提升了时间事件预测模型的表达力与个体风险判别能力。其对多种疾病、多种数据类型(临床、组学、遗传)均表现出良好的通用性和稳健性。


虽然在总体性能指标(如 C-index、R²)上的提升幅度有限,但在个体风险分类(NRI)上的改善显著,体现了其在精准医疗中的潜力。尤其在心血管风险预测场景中,survivalFM 能从现有临床变量中挖掘出更具信息量的交互组合,达到与添加新型生物标志物(如 PRS)相当的性能提升。


未来方向包括探索稀疏正则方法以提高模型可解释性、推广至更大规模的组学数据(如蛋白组交互建模)、以及在不同人群中验证交互稳定性。随着大型生物样本库和多组学平台的发展,survivalFM 为构建更精准、更全面的风险预测模型提供了有力工具。

整理 | DrugOne团队


参考资料


Julkunen, H., Rousu, J. Comprehensive interaction modeling with machine learning improves prediction of disease risk in the UK Biobank. Nat Commun 16, 6620 (2025). 

https://doi.org/10.1038/s41467-025-61891-y

内容中包含的图片若涉及版权问题,请及时与我们联系删除