SToFM: a Multi-scale Foundation Model for Spatial Transcriptomics

2025年07月15日
  • 简介
    空间转录组(Spatial Transcriptomics,ST)技术通过保留细胞的空间上下文信息,为生物学家提供了关于单细胞生物学的丰富洞见。构建ST的基础模型可以显著增强对海量复杂数据源的分析能力,解锁有关生物组织复杂性的新视角。然而,由于需要从包含大量细胞的组织切片中提取多尺度信息,对ST数据进行建模本质上是一项具有挑战性的任务。这一过程需要整合宏观尺度的组织形态、微观尺度的细胞微环境以及基因尺度的基因表达谱。为了解决这一挑战,我们提出了SToFM,这是一种多尺度的空间转录组基础模型。SToFM首先在每张ST切片上执行多尺度信息提取,构建一组聚合了宏观、微观和基因尺度信息的ST子切片。随后,使用SE(2) Transformer从这些子切片中获取高质量的细胞表示。此外,我们还构建了\textbf{SToCorpus-88M},这是目前用于预训练的最大规模高分辨率空间转录组语料库。SToFM在多种下游任务中表现出色,例如组织区域的语义分割和细胞类型注释,展示了其对ST数据的全面理解能力。
  • 图表
  • 解决问题
    论文试图解决空间转录组学(Spatial Transcriptomics, ST)数据分析的挑战,即如何从包含大量细胞的组织切片中提取多尺度信息,并整合宏观组织形态、微观细胞环境和基因表达谱。这是一个新兴且重要的问题,因为ST技术正在快速发展,但基础模型尚未充分建立以有效分析这种复杂数据。
  • 关键思路
    论文提出了一种名为SToFM的多尺度ST基础模型,通过在每个ST切片上进行多尺度信息提取,构建聚合了宏观、微观和基因尺度信息的子切片,然后使用SE(2) Transformer来学习高质量的细胞表示。这种方法的新意在于首次系统性地建模ST数据的多尺度特性,并结合Transformer架构进行表示学习。
  • 其它亮点
    1. 提出了SToFM框架,能够统一建模宏观组织结构、微观细胞环境和基因表达谱 2. 构建了目前最大规模的高分辨率ST预训练数据集SToCorpus-88M 3. 在多个下游任务(如组织区域语义分割、细胞类型注释)上表现出色,展示了其对ST数据的全面理解能力 4. 实验设计涵盖了真实世界ST数据的多种典型任务,验证了模型的泛化性和有效性
  • 相关研究
    1. Deep Learning for Spatial Transcriptomics: Recent Advances and Future Directions 2. Graph-based Representation Learning in Spatial Transcriptomics Data Analysis 3. ST-Net: A Deep Learning Framework for Joint Analysis of Histology Images and Spatial Gene Expression 4. Spatiotemporal Modeling of Cellular Lineages with Deep Generative Models 5. SpatialVAE: Variational Inference for Spatial Transcriptomics Data
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论