
点
击
蓝
字
关
注
我
们



引言

2026年5月,Ruppin团队在Cell上发表了题为《AI-predicted spatial transcriptomics unlocks breast cancer biomarkers from pathology》的文章。该研究提出了一个名为 Path2Space的深度学习框架,能够直接从常规 H&E 病理切片中预测空间基因表达图谱,并进一步推断局部细胞类型组成、肿瘤空间微环境特征及临床相关生物标志物。作者在多个空间转录组验证队列和乳腺癌临床队列中评估了该模型,结果表明 Path2Space 不仅可以较稳定地预测上千个与乳腺癌预后和治疗相关的基因,还能基于预测得到的空间转录组特征划分乳腺癌 SpatioTypes,并用于预测化疗和曲妥珠单抗治疗反应。该研究强调了利用 AI 从既有病理图像中“补全”空间组学信息的潜力,为大规模临床队列的空间生物标志物发现提供了新的计算路径。

01

背景

乳腺癌并不是均一细胞群。肿瘤内部不同区域的增殖、免疫浸润、基质重塑和 HER2 信号活动常常不同,这些空间差异会影响肿瘤进展和药物反应。已有空间转录组研究发现,乳腺癌中存在与淋巴细胞进入相关的血管生态位、与 HER2 阳性肿瘤免疫互作相关的区域,以及与转移和耐药相关的上皮-间质转化状态。因此,空间信息本身可能成为临床生物标志物。
但空间转录组的高成本限制了大队列验证。此前也有模型尝试从 H&E 图像预测空间基因表达,例如 STnet、Hist2Gene、Hist2ST 和 DeepSpace 等,但不少方法只能预测较小基因集合,或在跨队列泛化、可解释性和临床应用方面受限。Path2Space 的目标是预测更多基因,并把预测结果真正连接到预后和治疗反应。
02

方法

方法见图1,Path2Space 的输入是乳腺癌 H&E 全切片图像,输出是与空间转录组 spot 对应的基因表达向量。研究团队使用 Bassiouni 等人的 Visium 空间转录组队列训练模型,该队列包含 56,567 对匹配的图像区域和表达 spot。模型预测在至少 5% spot 中被检测到的 14,068 个基因。
模型流程包括图像预处理和表达回归。预处理阶段,系统围绕每个spot 提取图像 tile,进行颜色标准化,并使用数字病理基础模型 CTransPath 生成 768 维图像特征。回归阶段,多层感知机将 768 维特征映射到 14,068 维基因表达向量,预测目标采用 log10(count + 1) 转换后的表达值。训练采用留一患者交叉验证和集成预测,并利用空间平滑降低技术噪声。
完成训练后,作者在 HEST、Martinez 等人数据集和 HTAN 三个外部空间转录组队列上验证泛化能力,并利用 PanopTILs 和带细胞标注的 HEST 切片评估细胞组成推断。临床应用部分,模型被用于 TCGA、METABRIC 以及多组治疗队列:先把 H&E 切片划分为 pseudo-spots,再预测空间表达,用 SpaGCN 汇聚空间结构域,最终得到 11 类空间转录组簇和患者层面的 SpatioTypes。

图1
03

结果

1. 从 H&E 预测数千个空间表达基因
在 Bassiouni 训练队列交叉验证中(图2),空间平滑后的基因层面中位 Pearson 相关系数为 0.38;14,068 个基因中有 6,629 个基因的平均 PCC 超过 0.4。外部验证中,模型在 HEST、Martinez 和 HTAN 队列的中位 PCC 分别为 0.40、0.36 和 0.33,说明其预测并未局限于训练数据。交叉验证和外部验证中共有 4,807 个基因稳定达到 PCC > 0.4,其中包括 CHEK2、ERBB2/HER2 和 CDH1 等与乳腺癌预后和治疗决策相关的基因。
这些稳健预测基因显著富集于 10 个癌症标志性过程,尤其是免疫逃逸、生长抑制逃逸和细胞死亡抵抗相关通路。与 21 种已有 H&E 到空间转录组预测方法相比,Path2Space 在高变基因和全基因任务中总体处于最优或接近最优水平。更值得注意的是,该模型只在新鲜冰冻样本上训练,却能在 FFPE 样本中保持相近表现,为利用医院档案切片开展回顾性研究提供了可能。

图2
2. 预测表达可反映主要细胞类型组成
模型预测的空间表达是否具有真实细胞生态含义,是 Path2Space 能否用于生物标志物研究的关键。PanopTILs 数据集包含 151 位患者的 1,709 个病理标注区域,提供癌细胞、淋巴细胞和基质细胞等核级标注。作者发现,在某类细胞占比高的区域,Path2Space 预测的对应标志基因显著上调,并能复现单细胞 RNA 测序定义的细胞类型表达模式。
将SpaCET去卷积方法应用于 Path2Space 推断表达后,癌细胞、淋巴细胞和基质细胞比例与病理标注的相关系数分别为 0.69、0.60 和 0.41,对应分类 AUC 为 0.85、0.80 和 0.85。使用 PanopTILs 标注训练监督式回归器后,三类细胞的相关性进一步提升到 0.80、0.80 和 0.60。带真实 ST 的 HEST 标注切片也显示,Path2Space 接近 measured ST 的去卷积效果,并优于直接基于 H&E 的 HoVer-Net 核分类(图3)。

图3
2. 预测表达可反映主要细胞类型组成
模型预测的空间表达是否具有真实细胞生态含义,是 Path2Space 能否用于生物标志物研究的关键。PanopTILs 数据集包含 151 位患者的 1,709 个病理标注区域,提供癌细胞、淋巴细胞和基质细胞等核级标注。作者发现,在某类细胞占比高的区域,Path2Space 预测的对应标志基因显著上调,并能复现单细胞 RNA 测序定义的细胞类型表达模式。
将SpaCET去卷积方法应用于 Path2Space 推断表达后,癌细胞、淋巴细胞和基质细胞比例与病理标注的相关系数分别为 0.69、0.60 和 0.41,对应分类 AUC 为 0.85、0.80 和 0.85。使用 PanopTILs 标注训练监督式回归器后,三类细胞的相关性进一步提升到 0.80、0.80 和 0.60。带真实 ST 的 HEST 标注切片也显示,Path2Space 接近 measured ST 的去卷积效果,并优于直接基于 H&E 的 HoVer-Net 核分类(图3)。
3. SpatioTypes 连接空间生态与生存结局
在图4 TCGA 乳腺癌队列中,作者将约 670 万个 pseudo-spots 汇聚为 7,295 个空间结构域,再归纳出 11 类可跨患者比较的空间转录组簇。不同簇呈现出不同的增殖、免疫、癌细胞密度和细胞互作特征,其中 cluster 4 与较差无病生存相关,cluster 5 与较好生存相关。
基于每位患者 11 类空间簇的组成比例,研究者得到三类主要SpatioTypes:proliferation-enriched、immune-modulated 和 immune-inactive。具有切片和生存资料的 853 位 TCGA 患者中,这三类分型能显著区分无病生存。immune-inactive 患者预后更差,即使校正年龄和肿瘤分期后仍保持独立关联,风险比为 2.04。METABRIC 队列验证中,immune-inactive 仍与较差预后相关,校正后的风险比达到 5.45。

图4
4. HER2 SPAND 与空间簇预测治疗反应
治疗反应预测中,研究提出 SPAND 指标(图5),用于衡量局部空间邻域内表达活性的异质性。作者计算经癌细胞比例归一化的 HER2 pathway activity,并用 HER2 SPAND 表示 HER2 活性在空间上的混合程度。四个曲妥珠单抗治疗队列中,HER2 SPAND 预测病理完全缓解的 AUC 分别为 0.80、0.69、0.72 和 0.83;在 HER2 高表达或高扩增患者中,表现更为突出。
研究还用 11 类空间簇比例训练逻辑回归模型预测化疗和曲妥珠单抗反应。化疗模型在 TransNEO 交叉验证中 AUC 为 0.75,在 PBCP 和 IMPRESS 外部验证中分别达到 0.89 和 0.74。曲妥珠单抗模型在 TransNEO 中 AUC 为 0.86,在 PBCP、IMPRESS 和 Cedars-Sinai 中分别为 0.90、0.74 和 0.72;结合 HER2 SPAND 后,部分队列表现进一步提升。模型系数也有解释性:cluster 4 与较差治疗反应相关,与其在 TCGA 中对应 poor-prognosis immune-inactive SpatioType 的结果一致。

图5
04

讨论

Path2Space 的价值在于,它把空间转录组的生物学信息连接到常规 H&E 切片这一低成本入口。对临床研究而言,这意味着研究者可以在没有真实空间组学测序的回顾性队列中,批量重建肿瘤微环境的空间表达特征,并将这些特征与生存、化疗反应和靶向治疗反应相连。相比只观察 bulk RNA-seq 平均表达,空间特征能捕捉“哪些细胞在什么位置相邻”这一关键维度。
这项研究也提示,AI 病理模型正在从“诊断辅助”走向“空间分子表型推断”。Path2Space 并不替代真实空间转录组技术,而是依赖高质量 ST 数据训练,再把 ST 获得的空间知识迁移到大规模 H&E 队列。未来,如果更多癌种、更多治疗队列和更高分辨率空间组学数据可用,类似框架有望扩展到空间蛋白组学、空间甲基化以及其他肿瘤类型。
当前模型主要面向 Visium 分辨率数据,spot 直径约 55 μm,仍难以精确刻画单细胞或亚细胞层面的空间事件。低丰度细胞类型的推断性能也会下降,这既是模型问题,也是 spot 级空间组学的内在限制。总体来看,Path2Space 提供了一条清晰路径:用昂贵但信息密度高的空间转录组训练模型,再用常规病理切片在大队列中寻找可解释、可验证、可临床转化的空间生物标志物。



文章链接:
Eldad D. Shulman, Emma M. Campagnolo, Roshan Lodha, et al. AI-predicted spatial transcriptomics unlocks breast cancer biomarkers from pathology. Cell, 2026. DOI: 10.1016/j.cell.2026.04.023



内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢