scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI
提出一种名为scGPT的单细胞基础模型,通过在超过1000万个细胞上进行生成式预训练进行构建,该模型能有效地捕捉基因和细胞的生物学信息,并可用于多种下游任务,包括细胞类型标注、基因网络推断等。
Haotian Cui, Chloe Wang, View ORCID ProfileHassaan Maan, View ORCID ProfileBo Wang
[University Health Network]
scGPT:用生成式AI构建单细胞多组学基础模型研究
-
动机:生成式预训练模型在自然语言处理和计算机视觉等领域已取得显著成果,本文希望探索将这种方法用于单细胞基因组学领域,通过构建单细胞基础模型来深入理解基因和细胞的生物学。 -
方法:用超过1000万个单细胞测序数据进行生成式预训练,采用一系列新技术来应对大规模数据预训练的挑战,包括使用内存数据结构来存储数百个数据集以实现快速访问,以及在非顺序组学数据的情况下建立统一的生成式预训练流程,并同时学习细胞和基因表示。 -
优势:scGPT模型可以用于多种下游任务,包括细胞类型标注、基因网络推断等,并在几种任务中实现了最先进的性能,证明了scGPT模型的有效性和可扩展性。
https://biorxiv.org/content/10.1101/2023.04.30.538439v1
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢