AI 在科研领域再次展现了实力。最近,研究人员首次将 BERT 预训练和微调的范式引入单细胞转录组数据分析中。

 

9 月 27 日,腾讯在人工智能、生命科学跨学科应用领域的最新研究成果《scBERT as a Large-scale Pretrained Deep Language Model for Cell Type Annotation of Single-cell RNA-seq Data》(《基于大规模预训练语言模型的单细胞转录组细胞类型注释算法》),登上了国际顶级学术期刊《Nature》子刊《Nature Machine Intelligence》。

 

腾讯在论文中创新性地提出关于单细胞注释的「scBERT」算法模型,受到评审高度认可。专家表示,该成果对于单细胞转录组测序数据分析领域未来研究具有深远意义。

 

单细胞测序技术是生命科学领域的一项革命性技术。可以细粒度地观察和刻画各个物种中组织、器官和有机体中单细胞分子图谱(细胞表达),便于更好地了解肿瘤微环境,以达到精细分析病因、精准匹配治疗方案的效果,对于「精准医疗」具有极高的应用价值。

 

图片

 

值得注意的是,受数据样本量小、人工干预多、过度依赖 marker gene(已报道的特异性基因)等因素的影响,单细胞测序细胞类型注释技术一直面临着泛化性、可解释性、稳定性均比较低的问题,现存的算法难以有更广泛的应用。

 

针对以上问题,新研究首次提出「基于大规模预训练语言模型的单细胞转录组细胞类型注释算法」,即「scBERT」模型,首次将「transformer」(自然语言处理算法经典计算单元)运用到单细胞转录组测序数据分析领域。该模型基于 BERT 范式,将细胞中基因的表达信息转化成可被计算机理解、学习的「语言」,并对细胞进行精准标注。

 

阅读详情