【论文标题】Generative pretraining from large-scale transcriptomes: Implications for single-cell deciphering and clinical translation
【作者团队】Hongru Shen, Xilin Shen, Jiani Hu, Jilei Liu, Chao Zhang, Dan Wu, Mengyao Feng, Meng Yang, Yang Li, Yichen Yang, Wei Wang, Qiang Zhang, Jilong Yang, Kexin Chen, Xiangchun Li
【发表时间】2022/02/02
【机 构】天津医科大学
【论文链接】https://doi.org/10.1101/2022.01.31.478596
近年来单细胞转录组的指数式积累对高效同化构成了巨大的挑战。在此本文提出了一种名为tGPT的方法,通过将基因表达排名作为生成性预训练任务来整合2230万个单细胞转录组。tGPT对一个基因在其前面相邻序列背景下的排名进行自回归建模并展示了其在一系列基本的单细胞分析任务中的高性能,以及在块状组织上的新应用。从tGPT得出的单细胞集群和细胞系轨迹与已知的细胞标签和状态高度一致,通过tGPT学习的肿瘤组织的特征模式与基因组改变、预后和免疫疗法的治疗结果有关。tGPT代表了一种整合和破译大量转录组数据的新分析模式,它将促进单细胞转录组的解释和临床表型关联应用。
上图说明了tGPT的框架及其下游应用。包括三个部分:tGPT的流程,tGPT在单细胞以及块状组织转录组的应用。tGPT将降序排序的gene按64或128的长度输入进 8 个Transformer解码器中,具有 1024 个隐藏单元和 16 个注意力头。
上图展示了由tGPT学习的特征与基因组改变和临床表型的关联。在TCGA数据集上,本文发现不同层之间不同注意力头的重要性分数差异很大。重要性评分模式可以将不同的癌症类型分为不同的组,因为同一起源组织的癌症密切相关,而不同起源的癌症则被很好地分开(图 5A)。例如,皮肤皮肤黑色素瘤 (SKCM) 和葡萄膜黑色素瘤 (UVM)、多形性胶质母细胞瘤 (GBM) 和脑低级别胶质瘤 (LGG) 分别位于相同的聚类分支中。
此外,本文检查了注意力头熵与分子改变事件之间的关联。在 TCGA 泛癌队列中,特别是在膀胱尿路上皮癌 (BLCA)、LUAD 和 LUSC 中,有几个注意力头与肿瘤突变负荷 (TMB) 显着相关(图 5B)。本文观察到,注意力头在泛癌水平和 9 种癌症类型中也显示出与TP53突变显着相关(图 5C ))。还有一些注意力头与泛癌水平的同源重组缺陷(HRD)和基因组加倍(图5D和E )显着相关。同时,注意力头在泛癌水平(图 5E)和 7 种癌症类型中表现出预后意义。
此外,本文在由 298 名患者组成的尿路上皮癌免疫检查点阻滞 (ICB) 临床试验中检查了与免疫治疗相关的注意力头模式:25 名 CR 患者、43 名 PR 患者、63 名 SD 患者和 63 名 PD 患者。本文发现,具有不同治疗结果的患者的重要性和熵评分是可区分的(图 5G和H)。本文通过获取 PD 基线(图 5I )观察到从 SD 到 PR 再到 CR 的熵值逐渐变化,并且 CR/PR 与 SD/PD 患者的 5 个注意头之间存在显着差异(图 5J )。
本文量化了表达特征,如肿瘤逃避和 T 细胞免疫浸润,由不同的注意力参与。通过以 PD 为基线,本文观察到肿瘤逃避模式逐渐减少,T 细胞免疫浸润模式从 SD 到 PR 再到 CR 增加(图 5K和L)。注意头在该临床试验中也表现出预后意义(图 5M和N)。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢