随着空间转录组(ST)技术进入超高分辨率时代,数据规模的爆炸式增长给现有计算方法带来了严峻的挑战。上海交通大学俞章盛教授团队开发了一种名为
HERGAST的创新计算系统,旨在解决超大规模、超高分辨率空间转录组数据的分析瓶颈。
该研究于
2025年4月28日在线发表于《Nature Communications》。HERGAST的核心是一种专为ST数据设计的“分治-迭代-
聚合”(DIC)框架,通过将数据分割成小块进行迭代训练,有效解决了计算可扩展性问题。为避免数据分割带来的“过平滑”效应,
HERGAST采用异构图神经网络,巧妙地整合了局部空间邻近性和全局基因表达相似性,从而在捕捉精细组织结构的同时保持了全局视野
研究表明,
HERGAST在性能上全面超越现有方法,不仅计算效率更高,且在模拟数据中的聚类准确性(ARI)平均提升超过10%
。在真实世界数据中,
HERGAST成功解析了复杂的肿瘤微环境,
如在结直肠癌样本中精准识别出其他方法未能发现的
SPP1+巨噬细胞亚群,并在乳腺癌样本中显著增强了关键癌症基因的空间表达信号,揭示了前所未见的分子分布模式
HERGAST为深度挖掘大规模空间组学数据提供了强大的新工具。

研究背景

近年来,以
Visium HD、Spatial Molecular Imager (SMI) 和 Xenium
为代表的空间转录组(
ST)技术取得了革命性进展,使科学家能够在亚细胞分辨率下观察组织内的基因表达情况。这些技术极大地提升了我们对组织架构和细胞异质性的理解。
然而,技术的进步也带来了数据的急剧膨胀。一个
ST切片样本的点(spots)数量可轻松达到
数十万级别,这给数据分析带来了两大挑战:
1.
计算瓶颈现有的大多数分析工具,无论是基于贝叶斯模型的
BayesSpace
,还是基于图神经网络的
SpaGCN、STAGATE、GraphST
等深度学习方法,在处理如此庞大的数据时都会面临严峻的计算资源限制。这些方法通常需要巨大的
GPU显存或CPU内存
,导致它们在处理超过
8万个点的数据时变得极其缓慢甚至无法运行。
2.
算法局限性为解决计算瓶颈而采用的朴素“分治”策略,即将大数据切分成小块处理,容易引发“过平滑”(over-smoothing)问题。这种策略可能导致模型忽略跨区块的全局空间模式,使得学习到的组织结构变得碎片化和不完整。此外,高分辨率也可能稀释生物信号,使得检测低丰度但具有重要生物学意义的基因变得更加困难。
因此,迫切需要一种既能高效处理超大规模数据,又能精确捕捉全局和局部空间信息的新型计算方法。


HERGAST:一种创新的解决方案


为应对上述挑战,研究团队设计并开发了
HERGAST(High-resolution Enhanced Relational Graph Attention Network for ST)
系统。该系统通过三大创新设计的协同作用,实现了对超大规模
ST数据的高效与精准分析
(图1)

1. “分治-迭代-聚合”(DIC)框架

这是HERGAST为解决可扩展性问题而设计的核心战略框架。

  • 分割(Divide):首先,将超大规模的ST数据切片分割成多个计算上易于处理的小区块(patches)。

  • 迭代(Iterate):在每个小区块上迭代训练HERGAST的核心模型。由于处理的是小数据,这一步的计算开销完全在可控范围内。

  • 聚合(Conquer):模型训练完成后,在完整的原始数据切片上进行全局推理,生成最终的细胞空间嵌入和增强的基因表达谱。这一步计算开销极小,确保了全局结果的一致性。

2. 异构图神经网络

这是
HERGAST为避免“过平滑”问题而设计的技术核心。在每个训练区块内,HERGAST构建了一个包含两种不同连接关系的
异构图(
heterogeneous graph)
  • 空间邻近关系连接物理坐标上邻近的点,用以捕捉局部组织结构

  • 基因表达相似性连接基因表达谱相似的点,即使它们在空间上相距很远。这一设计至关重要,它允许信息在不同区块之间隐性流动,特别是通过连接不同区块边界上表达相似的细胞,从而帮助模型学习全局空间模式,有效缓解过平滑问题。

3. 交叉注意力机制

该机制能够自适应地学习并融合上述两种关系(局部空间与全局表达)的信息。通过动态调整不同关系的权重,
HERGAST可以智能地平衡局部细节和全局结构,进一步提升了模型的精确性和鲁棒性。

1. HERGAST模型概览

研究结果

01

模拟研究验证了HERGAST的卓越性能与可扩展性


研究团队首先通过一系列模拟实验,系统地评估了HERGAST的性能。

可扩展性在计算资源消耗方面,HERGAST表现出巨大优势。与其他方法相比,HERGAST的GPU和CPU内存消耗最低,使其能够处理更大规模的数据(图2a-b)。在计算效率上,处理一个包含64万个点的数据集,HERGAST仅需34.25分钟,而次优的方法则需要近5个小时。

准确性在空间聚类准确性方面,HERGAST在所有模拟条件下均显著优于其他方法。相较于表现次优的STAGATE(DIC)模型,HERGAST在各项评估指标(ARI、NMI、FMI、HS)上均实现了平均超过10%的性能提升。即使在数据变得稀疏的条件下,HERGAST的性能也仅出现轻微下降,展现了极强的鲁棒性(图2d-e)。

2. HERGAST在模拟数据中的性能表现

02

真实世界数据应用:精准解析肿瘤微环境


HERGAST在多个超大规模的真实ST数据集上也展现了其强大的分析能力。
  • 案例一:结直肠癌(Visium HD, 545,913个空间点)

在对人类结直肠癌样本的分析中,
HERGAST提供了比PCA和STAGATE(DIC)等方法
更平滑、更精确的肿瘤
-基质区域划分
(图
3a-b)。尤为重要的是,HERGAST独特地识别并聚类出一簇在免疫微环境中扮演关键角色SPP1+巨噬细胞
。这些细胞在空间上与肿瘤细胞混杂,形态上难以区分,导致
PCA和STAGATE(DIC)都未能将其正确识别
(图
3d-g)。这一发现凸显了HERGAST在解析复杂组织结构和细胞异质性方面的优势。

3. HERGAST在结直肠癌中精细绘制肿瘤微环境图谱

  • 案例二:乳腺癌(Xenium, 167,780个细胞)

该研究也展示了
HERGAST在
增强和放大关键基因信号方面的强大功能。在对人类乳腺癌样本的分析中:

HERGAST的聚类结果与病理学家手动标注的区域(如浸润性癌、两种不同的导管原位癌)完美匹配,而其他方法则无法完全区分这些区域(图4d)。

通过其解码器重建的基因表达谱,HERGAST显著增强了关键癌症基因如ERBB2、ESR1和PGR的表达信号,清晰地勾勒出一个三阳性区域(图4e)。

更精细的分析揭示了在原始信号中难以察觉的模式:在导管原位癌(DCIS)区域,EGFR表达细胞主要围绕坏死区呈边界状分布,而ESRI表达细胞则呈弥漫性分布,两者的空间位置几乎没有重叠(图4f)。这一发现为理解肿瘤内部的分子异质性提供了宝贵的空间维度信息。

 

4. HERGAST高精度增强关键分子特征

研究结论

该研究成功开发了
HERGAST
,一个专为超大规模、超高分辨率空间转录组数据设计的,集精细空间聚类基因表达信号放大功能于一体的高效计算系统。
HERGAST的核心创新在于其
“分治-迭代-聚合”(DIC)框架和异构图神经网络,这一组合有效解决了当前领域面临的可扩展性过平滑两大核心难题。通过在模拟和多个真实世界数据集上的全面验证,
HERGAST展现了其在计算效率、聚类准确性和信号解析能力上超越现有方法的卓越性能。

HERGAST的推出,为研究人员深度探索复杂生物系统(如肿瘤微环境)提供了强大的分析工具,使以前所未有的分辨率和深度揭示生命过程的奥秘成为可能

原文信息:

·论文标题Unveiling fine-scale spatial structures and amplifying gene expression signals in ultra-large ST slices with HERGAST

·发表期刊Nature Communications

·发表时间2025年4月28日

·DOIhttps://doi.org/10.1038/s41467-025-59139-w

·作者Yuqiao Gong, Xin Yuan, Qiong Jiao & Zhangsheng Yu

·单位:上海交通大学等

·代码链接https://github.com/GYQ-form/HERGAST

·END·

内容中包含的图片若涉及版权问题,请及时与我们联系删除