DRUGAI
癌症通常表现为复杂的病理特征,涵盖遗传、微观和宏观层面的信息,这些特征可通过成像和组学技术分别获取。要实现全面的病理学理解,整合这些异构数据至关重要。研究人员提出了一种名为“深度潜变量路径建模(DLVPM)”的方法,它结合了深度学习的表达能力与路径建模解析系统内部各元素关系的能力。研究人员首先在癌症基因组图谱(TCGA)乳腺癌数据上训练模型,用于揭示单核苷酸变异、甲基化、miRNA测序、RNA测序与组织病理图像之间的依赖关系。该方法在不同数据类型之间建立关联方面的表现优于传统路径建模。此外,研究人员将该方法应用于单细胞数据分层、基于细胞系的CRISPR–Cas9筛选以识别合成致死相互作用,以及利用空间转录组学数据检测组织与转录关联,均取得良好效果。各类数据结果均可在一个整体模型框架下被解释,从而实现更全面的疾病建模。

癌症等常见疾病的复杂病理机制涉及多层次的生物学信息处理。在癌症中,这些信息处理过程被破坏,导致细胞异常增殖、存活及转移。近年来,组学与成像技术的进步使研究人员能够深入理解这些机制。然而,单一技术只能提供片段化的见解,研究人员迫切需要能够将不同数据类型整合的创新方法。
尽管癌症在分子层面起源,但临床上仍主要依赖组织病理图像进行诊断与分类。这种成像技术可以识别组织微结构的异常,从而推断潜在的分子特征。因此,整合组学与成像数据对于全面理解癌症具有重要意义。
传统的路径建模方法适用于流行病学和社会科学领域,能够构建描述变量间直接与间接关系的模型。尽管这些方法在解释性方面具有优势,但其在处理图像等非结构化数据方面能力有限,难以捕捉非线性关系。为此,研究人员提出了DLVPM方法,以结合深度学习在建模复杂非线性关系方面的优势与路径建模的可解释性,构建一个可用于多模态癌症数据整合的统一模型。
结果
DLVPM 模型概述
DLVPM结合了深度神经网络的表达能力与路径建模的结构化表示能力,能够同时建模多种数据类型间的非线性关联关系。其核心在于构建“深度潜变量”(DLV),通过独立的测量子模型从每种数据类型中提取,并在整体路径模型中进行整合与优化。研究人员还引入了两种正交化策略(白化与迭代正交化)来约束潜变量之间的信息冗余。

DLVPM-Twins:单一模态预训练表示
DLVPM不仅可用于多模态整合,也可用于学习单一数据模态中的鲁棒表示,类似于经典路径建模中的验证性因子分析。该方法以孪生网络形式对相同图像的不同增强版本进行训练,从而学习出对图像增强操作不敏感的潜变量表示。在乳腺癌组织图像上,DLVPM-Twins表现与多种主流自监督学习方法(如VicReg和Barlow Twins)相当,但参数更少、训练更稳定,且更容易扩展至多模态场景。

完整路径建模:TCGA数据应用
研究人员进一步在TCGA乳腺癌数据上训练了一个完整的DLVPM模型,整合了五种数据模态:组织病理图像、单核苷酸变异(SNVs)、甲基化、miRNA测序和RNA测序。RNA-seq被置于模型中心,用于连接其他模态。该模型在揭示数据类型间潜在关系方面显著优于经典的PLS路径建模方法。
通过模型输出的潜变量分析发现,DLVPM能识别出多个正交的组织–分子路径模式,并在独立数据集(如CPTAC)上重现了这些关系。此外,研究人员使用中介分析显示RNA-seq潜变量在遗传/表观遗传数据与组织学之间起关键调解作用。多个个体显著相关的遗传位点被识别,其中包括众多已知乳腺癌相关基因(如ESR1、GATA3、TPX2、STMN1等)。

单细胞与细胞系应用
DLVPM模型可迁移至单细胞转录组数据,用于识别不同DLV所对应的细胞类型富集特征。例如,第一个DLV在luminal细胞中显著降低,在basal及增殖活跃细胞中显著升高,揭示出潜变量可映射至肿瘤生物学表型。
研究人员进一步将模型应用于CCLE细胞系数据,与CRISPR–Cas9依赖性评分结合,发现DLVPM潜变量可预测细胞系对某些基因敲除的敏感性,包括临床常用靶点(如ESR1、CDK4、GATA3),为药物靶点发现提供了新的方向。

空间转录组分析
结合Xenium空间转录组数据,研究人员评估了多个关键基因(GATA3、ESR1、CCND1)在肿瘤空间结构中的表达模式与DLVPM潜变量的关联。这些基因的表达集中于组织分化良好的区域,与DLVPM模型中组织学潜变量低表达区域相吻合。通过集成梯度方法进一步揭示了DLV模型中预测结果所依赖的关键图像区域,验证了模型可解释性与空间生物学一致性。

讨论
研究人员开发的DLVPM框架在多模态癌症数据整合中展现出高度灵活性、良好性能与生物学解释力。DLVPM在TCGA、CPTAC、METABRIC和CCLE等多个独立数据集上均显示出一致性,能够从不同层级(基因、单细胞、组织)和维度(表型、表观遗传、空间结构)全面揭示癌症的复杂机制。其关键优势包括:
可建模图像等非结构化数据;
可揭示潜在的非线性依赖关系;
模型输出的潜变量具备清晰的生物学解释性;
可迁移至外部数据进行下游分析。
DLVPM为实现疾病的系统性理解与精准治疗提供了重要工具,未来可拓展至其他复杂疾病的多模态整合研究中。
整理 | WJM
参考资料
Ing, A., Andrades, A., Cosenza, M.R. et al. Integrating multimodal cancer data using deep latent variable path modelling. Nat Mach Intell 7, 1053–1075 (2025).
https://doi.org/10.1038/s42256-025-01052-4
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢