- 简介空间转录组学(ST)技术通过保留细胞的空间背景信息,为生物学家提供了关于单细胞生物学的丰富洞见。构建ST的基础模型可以显著增强对大量且复杂数据源的分析能力,从而揭示生物组织复杂性的新视角。然而,由于需要从包含大量细胞的组织切片中提取多尺度信息,建模ST数据本身具有挑战性。这一过程需要整合宏观尺度的组织形态、微观尺度的细胞微环境以及基因尺度的基因表达谱。为了解决这一挑战,我们提出了SToFM,这是一种多尺度的空间转录组学基础模型。SToFM首先对每个ST切片进行多尺度信息提取,构建一组聚合了宏观、微观和基因尺度信息的ST子切片。随后,使用SE(2)变换器从这些子切片中获取高质量的细胞表示。此外,我们还构建了\textbf{SToCorpus-88M},这是目前用于预训练的最大规模高分辨率空间转录组学语料库。SToFM在多种下游任务中表现出色,例如组织区域的语义分割和细胞类型注释,展示了其通过对多尺度信息的捕捉与整合,实现对ST数据的全面理解能力。
- 图表
- 解决问题论文试图解决空间转录组学(ST)数据分析中的多尺度信息整合问题。由于ST数据包含宏观组织形态、微观细胞微环境以及基因层面的表达信息,如何有效建模这些复杂且多尺度的信息是一个极具挑战性的问题。这是一个相对较新的问题,随着ST技术的发展,数据复杂性和规模的增加使得传统分析方法难以胜任。
- 关键思路论文提出了一种名为SToFM的多尺度基础模型,用于建模ST数据。其关键思路是通过构建多尺度子切片(sub-slices)来分别捕捉宏观、微观和基因尺度的信息,并使用SE(2) Transformer来学习高质量的细胞表示。这一方法的新意在于系统性地整合了ST数据的多个尺度信息,突破了传统方法在单一尺度建模的局限性。
- 其它亮点1. 构建了一个名为SToCorpus-88M的高质量、大规模ST预训练数据集,为模型训练提供了坚实基础。 2. 在多个下游任务上(如组织区域语义分割、细胞类型注释)展示了卓越性能,证明了模型的泛化能力和理解深度。 3. 引入了SE(2) Transformer,利用其对空间结构的敏感性来更好地建模细胞间的空间关系。 4. 论文为ST数据建模提供了一个通用框架,未来可拓展至多模态融合、跨物种迁移学习等方向。
- 1. Spatial Transformer Networks (NIPS 2015) 2. Graph Attention Networks for Spatial Transcriptomics Analysis (Nature Methods 2022) 3. Deep Learning for Spatially Resolved Transcriptomics Data (Cell Systems 2023) 4. Swin Transformer for Medical Image Analysis (MICCAI 2021) 5. GNN-based Modeling of Cellular Neighborhoods in Tumor Microenvironment (Cancer Cell 2022)
沙发等你来抢
去评论
评论
沙发等你来抢