【论文标题】Unsupervised cell functional annotation for single-cell RNA-Seq
【作者团队】Dongshunyi Li, Jun Ding, Ziv Bar-Joseph
【发表时间】2022/04/02
【机 构】卡耐基梅隆、麦吉尔大学
【论文链接】https://doi.org/10.1101/2021.11.20.469410
【代码链接】https://github.com/doraadong/UNIFAN
分析单细胞RNA测序数据(scRNA-Seq)的第一个步骤是分配细胞类型。在大多数情况下,分配的方法是通过首先在低维空间对细胞进行聚类,然后将细胞类型分配到不同的聚类中。为了克服噪音并改善细胞类型的分配效果,本文开发了UNIFAN,这是一种预训练方法,可以同时使用已知的基因组对细胞进行聚类和注释。UNIFAN结合了所有基因的低维表征法和细胞特定的基因集活动得分来确定聚类。我们将UNIFAN应用于来自几个不同器官的人类和小鼠scRNA-Seq数据集,通过使用基因组的知识,UNIFAN大大超过了先前开发的用于scRNA-Seq数据聚类的方法。UNIFAN分配给不同聚类的基因组为该聚类所代表的细胞类型提供了强有力的证据,使注释更加容易。
上图展示了UNIFAN。
- 顶部:使用细胞y中基因的表达水平,UNIFAN首先使用一个自编码器推断出基因集的活性分数。解码器输出二维向量,其值表示一个基因是否属于一个已知的基因集。
- 中间:UNIFAN通过使用学到的基因组活性分数和细胞中所有基因表达的低维表征对细胞进行聚类。自编码器包含两个部分:聚类分配部分(灰色)和 "注释器"(绿色)。聚类分配部分根据低维表征将细胞分配到聚类中,而 "注释器 "则细化聚类,用生物过程和标记基因注释聚类。
- 底部。细胞被分配到以选定的基因组和标记基因为特征的不同聚类中
- 上图展示使用自编码器分配单细胞基因集活动分数。自编码器的设计使得解码器由二维向量组成,其值指示分析的基因是否属于已知基因集。编码器的输出r用作基因集向量的系数,显示细胞与已知途径/生物过程的相关性。因此, r可以看作是该细胞的基因集活性分数。Set cover损失旨在选择不相关的路径/过程以更好地注释细胞。
上图显示了UNIFAN准确地对细胞进行聚类,并正确识别生物过程/途径。
ABC为UNIFAN输出的细胞的低维表的UMAP可视化。A:用真实的细胞类型标签着色;B:用UNIFAN发现的聚类着色;C:用Leiden聚类着色。UNIFAN比其他方法(包括leiden聚类)有很大改进。通过依赖已知的基因集,UNIFAN 对噪声具有鲁棒性,并且主要关注相关的共表达基因集,从而产生更加连贯的簇。
D: 注释器为一些聚类的高排名基因组学习的系数。E:注释者学到的高权重基因中细胞类型标志物集的富集度P值。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢