DRUGAI
今天为大家介绍的是来自Fabian J.Theis团队的一篇论文。近期构建细胞表型参考图谱(reference map)的工作扩大了单细胞组学数据的体量和多样性,为研究细胞特性提供了前所未有的资源。尽管数据集十分丰富且持续增多,但当前的单细胞模型尚未能充分利用其中的信息。transformer因其在处理异质性和大规模数据集上的通用性,已成为其他领域基础模型的首选架构。因此,transformer是否也能在单细胞建模领域引发类似的变革成为一个值得探讨的问题。本文首先介绍了transformer架构及其在单细胞分析中的适应性,然后对transformer在单细胞分析中的现有应用进行了全面综述,并对其在单细胞生物学中的未来潜力进行了深入探讨。通过研究这些模型的局限性和技术挑战,作者旨在为机器学习与单细胞生物学交叉领域的未来研究方向提供一个结构化的展望。
单细胞组学的出现加深了我们对生物系统的理解,提供了对细胞异质性和动态变化的细致视角。这包括对细胞类型、细胞状态及其在发育、疾病发生和治疗反应过程中的变化的新见解。大量异质性的数据既带来了机会,也带来了挑战。目前的分析方法无法充分捕捉跨越多样且大规模单细胞数据集的变化,因此需要开发新的计算策略。
图 1
与此同时,机器学习领域见证了transformer的显著影响。transformer最初是为自然语言处理(NLP)任务设计的,最近已作为基础模型的核心架构应用于多个领域。基础模型是一种通过自监督学习在广泛数据上训练的机器学习模型,可以高效适应多种下游任务,通常只需进行少量额外训练。基于transformer的基础模型已经成功应用于多个领域,包括计算机视觉、语音处理、时间序列分析,以及基因组学和蛋白质组学中的分类序列建模。transformer能够利用大规模和异质数据集,并推广到多个领域的多种任务中,使其成为单细胞组学分析中的潜在变革者(图1)。然而,这些领域中的数据都具有一个显著的特性——顺序性,而这一特性在原始单细胞组学数据中并不存在,这带来了独特的挑战。
图 2
深度学习已广泛应用于单细胞生物学领域。大多数深度学习模型将输入视为一个向量,并对其反复应用一系列可学习的层,每一层通常由线性变换和元素级非线性组成。在单细胞基因组学中,输入向量可以代表一个细胞,其中各个向量成分对应于各个基因的RNA表达。在单细胞应用中,常见的模型架构是自编码器(autoencoder),因为它不依赖难以获取的数据标注。如图2a所示,自编码器由编码器和解码器组成,训练过程是将输入映射到一个低维的潜在表示,这个潜在表示形成了一个bottleneck,解码器尝试从中重建输入。在单细胞RNA计数上训练的自编码器可以用于细胞转录组特征的降维。由于自编码器为所有输入(即所有细胞)学习了一组固定的参数,中间的bottleneck结构迫使模型学习特征提取器,捕捉全局最相关的模式,同时滤除噪声,从而最终形成对细胞变化的有意义的潜在表示。
如图2所示,transformer架构是一种使用自注意力机制处理输入数据的深度学习模型。transformer解码器处理transformer编码器的输出,并逐个生成序列元素。transformer的编码器和解码器通常独立使用,其中encoder-only模型常用于为每个基因生成带上下文背景的嵌入。这些嵌入可以捕捉特定基因在给定细胞环境中的特性及其表达水平,同时考虑其他基因的表达情况,从而有助于解决基因层面的任务,例如特定细胞中的基因剂量敏感性预测。decoder-only模型以及encoder-decoder transformer用于序列生成,例如模拟转录组细胞特征,但这需要将RNA计数表示为一个序列。
如何表示单细胞输入数据?
图 3
值得注意的是,现有的单细胞transformer主要在将单细胞组学数据转化为适合transformer输入的方式上有所不同。常用的方法可以分为三大类(图3),如下所述。为了简化说明,假设输入样本S表示一个细胞的转录特征。需要注意的是,其他组学模式也以类似方式进行解析。
1、排序(ordering)。数据表示为一个类似自然语言输入的token序列,这样可以直接复用已有的自然语言处理transformer方法。例如,在iSEEEK、Geneformer和tGPT中,每个基因是一个token,并具有对应的可学习嵌入,基因token的顺序通过在细胞内按标准化表达水平排序来确定(图3c)。位置编码会像在自然语言处理中一样添加到token嵌入中。这种方法会降低数据分辨率,导致信息丢失。
2、值分类(value categorization)。每个基因由一个嵌入表示,其每个细胞的RNA计数会进行值分箱(图3d)。和排序方法类似,这也会降低数据分辨率。在值分箱中,定义了连续的值区间。每个值区间都有一个对应的嵌入,是基因嵌入和值分箱嵌入的和。区间可以是等大小的,如单细胞transformer scBERT中的设计,或者是自适应大小的,如scGPT中的设计。在后者中,分箱是针对每个细胞进行的,每个区间代表单个细胞中所有表达基因的相等部分。这种自适应大小的分箱能够保持跨测序批次的语义一致性,因为在细胞中的最高表达总是对应于最高表达的分箱。此外,scBERT的等大小分箱在某些情况下会导致几乎所有的值都落入同一个分箱,大幅降低数据分辨率。
3、值投影(value projection)。在输入数据对应于以基因表达值向量形式表示的细胞转录组特征的情况下,由两个部分组成:基因表达向量的投影和位置(或基因)嵌入,其中投影通常是线性的(图3e)。与排序和值分类相比,这种方法的优势在于不一定会降低数据分辨率。然而,它会产生连续的嵌入,这与成功的自然语言处理transformer有所不同,对模型性能的影响尚不明确。transformer输入嵌入的数量可能与输入数据中的基因数量相对应,也可能不对应。输出嵌入的数量可以例如对应于选择的基因通路的数量,如在模型TOSICA中,通过这种选择来增强模型的可解释性。
此外,transformer可以通过特殊token来整合额外的信息层。这些token可能代表对特定细胞或基因的干扰、物种信息、数据批次或数据模式等。特殊token嵌入可以添加到单个输入嵌入中,用于token级信息(图3f),或者添加到输入集合S中,用于样本级信息(图3g)。特殊token嵌入通常是可学习的,类似于基因或位置token嵌入。
Transformer的训练
如果有足够的标注数据,transformer可以直接在目标任务上进行训练。然而,尽管单细胞数据集中包含数百万条观测数据,细胞的标注通常有限且在数据集之间不一致。这使得自监督学习(SSL)成为单细胞建模的一个有吸引力的方法,因为它依赖于数据的内在结构而非人工标注,例如通过掩码token或下一个token预测(NTP)实现的SSL。
一种常见的自监督预训练策略是掩码语言建模(MLM)。MLM策略是在输入tokens中用MASK token嵌入替换部分tokens,然后从最终嵌入(transformer输出)中预测被掩码的tokens。MLM被用于许多单细胞transformer中。另一种用于transformer解码器和编码器-解码器模型的预训练形式是NTP任务。该任务假设输入是一个序列,模型在给定前面的tokens时训练去预测下一个token。
图 4
尽管一些模型在自监督预训练后表现有所提升,另一些即使没有自监督预训练也能取得最先进的结果。同样,一些单细胞transformer利用SSL预训练(如图4a,b所示),而其他则仅在目标任务上进行监督训练。此外,研究还显示SSL预训练可能不会在某些任务上提升性能。
Transformer在单细胞场景下的各种应用
图 5
transformer已经被应用于多种单细胞任务,如细胞注释、细胞和基因表示学习以及在特定条件或干扰下的单细胞模态预测。图5展示了单细胞RNA测序(scRNA-seq)transformer的使用案例。作者在表1中列出了一些选定的单细胞transformer及其应用,并在 https://github.com/theislab/single-cell-transformer-papers 提供了一个更全面的分类列表。
一些transformer是为单一任务开发的,如细胞类型注释或跨模态预测,而另一些则尝试解决多种任务。作者希望在足够多样的数据上训练的模型(通常通过自监督学习)能获得关于细胞生物学的基础知识,使其在与细胞功能相关的广泛任务中表现良好。技术上,通过零样本方式使用模型,或调整最终层并微调模型以适应选定任务来实现不同任务的解决。
应用之一:基因表征。应用于单细胞数据的transformer通常将基因表达(或其他与基因相关的组学模态)编码为输入嵌入,从而产生基因级别的表征。这些基因嵌入根据细胞内其他基因表达提供的上下文而变化,使其具有上下文特异性。这种特异性通过在细胞内基因(或其他组学特征)之间应用注意力机制来实现。上下文特异性的嵌入可以用于许多任务,这些任务过去一直依赖于固定的基因表征,例如识别功能相似的基因、基因功能预测以及在不同条件下基因功能变化的预测(例如通过模拟处理后基因嵌入的变化)。上下文化的基因嵌入可以通过比较这些嵌入在不同细胞间的相似性分数提供新的见解。例如,预训练的scGPT的基因嵌入被用来构建相似性网络,将功能相关的基因分组,并识别出已知的通路,包括一些在共表达网络中未揭示的通路。此外,微调Geneformer中的基因嵌入在预测染色质状态和区分特定细胞类型中基因网络的中心与外围因子时表现出有效性。
应用之二:组学特征之间的相互作用。组学特征包括从各类“组学”领域中获得的多样化数据,例如基因组学、表观基因组学、转录组学、蛋白质组学和代谢组学。这些特征包括但不限于基因、转录本、蛋白质、代谢物和可及染色质区域。组学特征之间的相互作用对于理解细胞和生物体的生物学非常重要。例如,转录组与染色质可及性联合分析(chromatin accessibility profiling)用于描述基因之间的相互作用,这对于疾病预防具有重要意义。transformer通过注意力机制在组学特征之间引入了一种新的方法来研究多模态相互作用,生成可学习的数据关系图。因此,细胞与组学特征token之间的注意力得分可以用于识别细胞类型标志基因、与特定细胞表型相关的基因以及与生物过程相关的基因,如发育调控基因和与特定细胞表型相关的基因。类似地,注意力机制也可以预测组学特征之间的相互作用,并识别枢纽基因——那些调控或受大量其他基因调控的基因。例如,Geneformer中的基因注意力得分集中在转录因子和枢纽基因上,揭示了细胞的调控机制。注意力值具有上下文特异性,因此结合ATAC-seq和RNA-seq数据可以基于共结合转录因子的表达和染色质可及性揭示上下文特异性(如细胞状态特异性)的基因调控。这种对模型解释性和生物学洞察的发现方法在TOSICA中有所探索。TOSICA使用通路嵌入,通过通路注意力得分作为细胞表示,捕捉细胞轨迹,并将轨迹中的变化与特定通路或调控因子相连接,突出驱动疾病进展的调控网络。
应用之三:细胞表征。在低维空间中高质量地表示单个细胞是各种下游单细胞分析的重要组成部分。关键在于保留生物学变异,如细胞类型和细胞状态,同时尽量减少数据集之间的技术干扰,例如批次效应。然而,当整合来自多个研究、组织甚至不同生物的数据时,区分不需要的批次效应和相关协变量非常具有挑战性,且往往依赖于具体情况。transformer通过批次无关的预训练提供了一种有前景的解决方案,并已显示出对某些批次效应具有鲁棒性。例如,Universal Cell Embeddings(UCE)和GeneCompass已被用于整合跨研究、组织和物种的大规模细胞分子特征,使得UCE能够将细胞类型注释转移到模型未见过的物种数据上。一些transformer能泛化到整体数据,产生有意义的整体嵌入。transformer输入token的灵活性还支持使用多模态特征进行细胞表示。例如,scGPT将不同组学层的个体特征视为独立的token,从而实现配对和马赛克整合,并展示出能够捕捉其他最先进的多组学整合方法未识别的免疫细胞亚群。transformer细胞嵌入的其他应用还包括通过分析干扰导致的细胞嵌入变化来识别治疗靶点。例如,在Geneformer中,通过模拟基因删除后,心肌病患者心肌细胞嵌入向健康心脏状态的嵌入移动,表明抑制这些基因可能改善心肌细胞功能。这些预测效应得到了实验验证,展示了单细胞transformer的实用性。
应用之四:单细胞模态生成。transformer已被应用于基于预测单个细胞基因表达或其他组学模态的各种任务。作者将这些任务称为单细胞模态生成,包括通过模拟对单个输入基因的干扰(如基因敲除或敲低)或引入干扰条件(例如细胞暴露于小分子)来预测基因表达、读深度增强、数据插补以及跨模态预测(使用已知模态预测缺失模态)。例如,在预测干扰后细胞表达特征的任务中,scGPT在Perturb-seq数据集中使用了部分遗传干扰子集进行微调,并通过特殊token指示哪些基因被干扰。结果显示,该模型能够准确预测对未见过的干扰的基因表达响应。
应用之五:细胞注释。许多单细胞transformer被设计用于单细胞注释任务,主要利用细胞的转录组特征。注释的主要重点是细胞类型预测,模型如scBERT和TOSICA专注于这一任务。通用的单细胞transformer也经常在细胞类型注释任务上进行评估,并且通过在大数据集上进行掩码输入建模的自监督预训练已显示能够提升分类能力。transformer展示了对未见数据集进行泛化的能力,这对于利用具有共识注释的参考数据集来注释新数据集非常关键。例如,TOSICA即使在训练时未见过的数据集中也能有效预测细胞类型,成功克服批次效应。此外,UCE模型也被用于将细胞类型注释转移到未见过的物种中。
应用之六:空间组学。transformer在空间组学应用中也展现出潜力。在这项工作中,作者只考虑了直接应用于空间组学数据的模型,不包括那些用于切片图像的模型。Nicheformer在空间邻域细胞密度预测和邻域组成预测方面显示出良好效果。此外,它还实现了空间与RNA-seq检测之间的迁移学习,可以根据基因表达预测解离细胞的空间上下文。scGPT、SpaFormer和CellPLM在空间转录组基因表达插补任务中表现出色,但只有SpaFormer和CellPLM能够一次处理多个细胞(而非基因),用于建模细胞间的关系。这两个模型也是在撰写时唯一在模型输入中包含空间信息的,利用位置编码来表示细胞的空间坐标。此外,CellPLM通过利用同一组织内相似细胞的表达,在去噪scRNA-seq数据方面表现良好。空间转录组学领域的快速增长以及transformer解析其他领域空间坐标的能力,使这些技术的整合成为一个充满前景的前沿领域。
结论
将transformer应用于单细胞组学具有巨大潜力,但在全面评估之前需要谨慎。目前,尚不清楚transformer是否是非序列组学数据的合适架构,以及它们是否能超越该领域现有的方法。然而,与其他机器学习模型不同,transformer在大规模、多样且无标注的数据集上预训练后,已显示在多种任务上有所改进。有效的自监督预训练使得transformer有望从越来越多的大型组学数据集中受益,并可能应用于各种数据和下游任务。
尽管开发一个包含所有已知单细胞生物学的通用基础transformer的目标非常吸引人,但这样的模型仍然遥不可及。尽管transformer在其他领域的多种模态中取得了成功,但它们在单细胞组学数据建模中的应用仍在不断发展中。结合关于解释学习模型及其注意力得分的通用研究,随着这一快速增长领域的发展,未来将充满期待。更多分类的单细胞transformer文献可以在
https://github.com/theislab/single-cell-transformer-papers找到。
编译 | 黄海涛
审稿 | 曾全晨
参考资料
Szałata, A., Hrovatin, K., Becker, S., Tejada-Lapuerta, A., Cui, H., Wang, B., & Theis, F. J. (2024). Transformers in single-cell omics: a review and new perspectives. Nature Methods, 21(8), 1430-1443.
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢