- 简介细胞身份涵盖了细胞的各种语义方面,包括细胞类型、通路信息、疾病信息等,这些对于生物学家了解其生物特性至关重要。从转录组数据中理解细胞身份,如注释细胞类型,已成为生物信息学中的重要任务。由于这些语义方面是由人类专家确定的,因此在没有单细胞和标签对提供监督信号的情况下,AI模型无法有效地执行细胞身份理解任务。目前用于此任务的单细胞预训练语言模型(PLMs)仅在单一模态下进行训练,即转录组数据,缺乏对细胞身份知识的理解。因此,在下游任务中,它们必须进行微调,并在缺乏所需语义标签的标记数据时遇到困难。为解决这个问题,我们提出了一种创新的解决方案,即在预训练阶段构建单细胞数据和自然语言的统一表示,使模型直接融合与细胞身份相关的见解。更具体地说,我们引入了LangCell,第一个语言-细胞预训练框架。LangCell利用富含细胞身份信息的文本,获取跨模态知识的深刻理解。在不同基准测试中进行的实验结果表明,LangCell是唯一能够在零-shot细胞身份理解场景中有效工作的单细胞PLM,并且在少量标记和微调细胞身份理解场景中明显优于现有模型。
-
- 图表
- 解决问题LangCell旨在解决单细胞转录组数据中的细胞身份理解问题,即如何将细胞类型、通路信息、疾病信息等语义方面的信息融入到模型中,以更好地理解细胞的生物特征。
- 关键思路LangCell是一种新颖的语言-细胞预训练框架,通过在预训练阶段构建单细胞数据和自然语言的统一表示,使模型直接融合与细胞身份相关的知识。与当前仅在单一模态下进行训练的单细胞预训练语言模型相比,LangCell能够更好地应对零样本和少样本情况,同时在细调任务中表现出色。
- 其它亮点LangCell使用文本数据丰富了细胞身份信息,能够更好地理解跨模态知识;实验结果表明,LangCell是目前唯一能够在零样本情况下有效地进行细胞身份理解的单细胞预训练语言模型,并且在少样本和细调任务中表现出色;LangCell的代码已经开源。
- 近期的相关研究包括使用自监督学习的方法来预训练单细胞模型,如Solo和Seurat-3;以及使用一些预训练模型,如BERT和GPT,进行单细胞RNA测序数据的分析和分类。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流