CITE-seq 是一种单细胞多组学技术,可同时测量单细胞中 RNA 和蛋白质的表达,已广泛应用于生物医学研究,特别是免疫相关疾病和其他疾病,如流感和 COVID-19。尽管 CITE-seq 激增,但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容,但这带来了计算挑战。

首先,组合多个数据集容易产生需要解决的批处理效应。其次,很难组合多个 CITE-seq 数据集,因为不同数据集中的蛋白质面板可能仅部分重叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很重要,因为这允许利用尽可能多的数据来揭示细胞群的异质性。

为了克服这些挑战,宾夕法尼亚大学的研究人员提出了 sciPENN,这是一种多用途的深度学习方法,支持 CITE-seq 和 scRNA-seq 数据集成、scRNA-seq 的蛋白质表达预测、CITE-seq 的蛋白质表达插补、预测的量化和插补不确定性 ,以及从 CITE-seq 到 scRNA-seq 的细胞类型标签转移。跨越多个数据集的综合评估表明,sciPENN 优于其他当前最先进的方法。

该研究以「A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation」为题,于 2022 年 10 月 27 日发布在《Nature Machine Intelligence》。

图片

 

论文链接:https://www.nature.com/articles/s42256-022-00545-w