随着空间转录组(ST)技术进入超高分辨率时代,数据规模的爆炸式增长给现有计算方法带来了严峻的挑战。上海交通大学俞章盛教授团队开发了一种名为HERGAST的创新计算系统,旨在解决超大规模、超高分辨率空间转录组数据的分析瓶颈。该研究于2025年4月28日在线发表于《Nature Communications》。HERGAST的核心是一种专为ST数据设计的“分治-迭代-聚合”(DIC)框架,通过将数据分割成小块进行迭代训练,有效解决了计算可扩展性问题。为避免数据分割带来的“过平滑”效应,HERGAST采用异构图神经网络,巧妙地整合了局部空间邻近性和全局基因表达相似性,从而在捕捉精细组织结构的同时保持了全局视野HERGAST在性能上全面超越现有方法,不仅计算效率更高,且在模拟数据中的聚类准确性(ARI)平均提升超过10%。在真实世界数据中,如在结直肠癌样本中精准识别出其他方法未能发现的SPP1+巨噬细胞亚群,并在乳腺癌样本中显著增强了关键癌症基因的空间表达信号,揭示了前所未见的分子分布模式。HERGAST为深度挖掘大规模空间组学数据提供了强大的新工具。Visium HD、Spatial Molecular Imager (SMI) 和 XeniumST)技术取得了革命性进展,使科学家能够在亚细胞分辨率下观察组织内的基因表达情况。这些技术极大地提升了我们对组织架构和细胞异质性的理解。计算瓶颈:现有的大多数分析工具,无论是基于贝叶斯模型的等深度学习方法,在处理如此庞大的数据时都会面临严峻的计算资源限制。这些方法通常需要巨大的算法局限性:为解决计算瓶颈而采用的朴素“分治”策略,即将大数据切分成小块处理,容易引发“过平滑”(over-smoothing)问题。这种策略可能导致模型忽略跨区块的全局空间模式,使得学习到的组织结构变得碎片化和不完整。此外,高分辨率也可能稀释生物信号,使得检测低丰度但具有重要生物学意义的基因变得更加困难。因此,迫切需要一种既能高效处理超大规模数据,又能精确捕捉全局和局部空间信息的新型计算方法。HERGAST(High-resolution Enhanced Relational Graph Attention Network for ST)系统。该系统通过三大创新设计的协同作用,实现了对超大规模这是HERGAST为解决可扩展性问题而设计的核心战略框架。
HERGAST为避免“过平滑”问题而设计的技术核心。在每个训练区块内,HERGAST构建了一个包含两种不同连接关系的该机制能够自适应地学习并融合上述两种关系(局部空间与全局表达)的信息。通过动态调整不同关系的权重,HERGAST可以智能地平衡局部细节和全局结构,进一步提升了模型的精确性和鲁棒性。研究团队首先通过一系列模拟实验,系统地评估了HERGAST的性能。可扩展性:在计算资源消耗方面,HERGAST表现出巨大优势。与其他方法相比,HERGAST的GPU和CPU内存消耗最低,使其能够处理更大规模的数据(图2a-b)。在计算效率上,处理一个包含64万个点的数据集,HERGAST仅需34.25分钟,而次优的方法则需要近5个小时。
准确性:在空间聚类准确性方面,HERGAST在所有模拟条件下均显著优于其他方法。相较于表现次优的STAGATE(DIC)模型,HERGAST在各项评估指标(ARI、NMI、FMI、HS)上均实现了平均超过10%的性能提升。即使在数据变得稀疏的条件下,HERGAST的性能也仅出现轻微下降,展现了极强的鲁棒性(图2d-e)。
HERGAST在多个超大规模的真实ST数据集上也展现了其强大的分析能力。HERGAST提供了比PCA和STAGATE(DIC)等方法3a-b)。尤为重要的是,HERGAST独特地识别并聚类出一簇在免疫微环境中扮演关键角色SPP1+巨噬细胞。这些细胞在空间上与肿瘤细胞混杂,形态上难以区分,导致PCA和STAGATE(DIC)都未能将其正确识别3d-g)。这一发现凸显了HERGAST在解析复杂组织结构和细胞异质性方面的优势。图3. HERGAST在结直肠癌中精细绘制肿瘤微环境图谱
增强和放大关键基因信号方面的强大功能。在对人类乳腺癌样本的分析中:HERGAST的聚类结果与病理学家手动标注的区域(如浸润性癌、两种不同的导管原位癌)完美匹配,而其他方法则无法完全区分这些区域(图4d)。
通过其解码器重建的基因表达谱,HERGAST显著增强了关键癌症基因如ERBB2、ESR1和PGR的表达信号,清晰地勾勒出一个三阳性区域(图4e)。
更精细的分析揭示了在原始信号中难以察觉的模式:在导管原位癌(DCIS)区域,EGFR表达细胞主要围绕坏死区呈边界状分布,而ESRI表达细胞则呈弥漫性分布,两者的空间位置几乎没有重叠(图4f)。这一发现为理解肿瘤内部的分子异质性提供了宝贵的空间维度信息。
,一个专为超大规模、超高分辨率空间转录组数据设计的,集精细空间聚类与基因表达信号放大功能于一体的高效计算系统。“分治-迭代-聚合”(DIC)框架和异构图神经网络,这一组合有效解决了当前领域面临的可扩展性和过平滑两大核心难题。通过在模拟和多个真实世界数据集上的全面验证,HERGAST展现了其在计算效率、聚类准确性和信号解析能力上超越现有方法的卓越性能。HERGAST的推出,为研究人员深度探索复杂生物系统(如肿瘤微环境)提供了强大的分析工具,使以前所未有的分辨率和深度揭示生命过程的奥秘成为可能。
原文信息:
·论文标题:Unveiling fine-scale spatial structures and amplifying gene expression signals in ultra-large ST slices with HERGAST
·发表期刊:Nature Communications
·发表时间:2025年4月28日
·DOI:https://doi.org/10.1038/s41467-025-59139-w
·作者:Yuqiao Gong, Xin Yuan, Qiong Jiao & Zhangsheng Yu
·单位:上海交通大学等
·代码链接:https://github.com/GYQ-form/HERGAST
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢