- 简介单细胞RNA测序数据的生成建模已经在社区驱动的任务中显示出了宝贵的潜力,如轨迹推断、批次效应消除和基因表达生成。然而,大多数最近的深度模型从预处理的连续基因表达估计中生成合成单个细胞,忽略了单细胞数据固有的离散和过度离散的特性,这限制了下游应用并阻碍了强大的噪声模型的整合。此外,基于深度学习的合成单细胞生成的关键方面仍然未被充分探索,如可控的多模式和多标签生成及其在下游任务性能提升中的作用。本文提出了Cell Flow for Generation (CFGen),这是一种基于流的条件生成模型,用于多模态单细胞计数,明确考虑了数据的离散性质。我们的结果表明,在考虑新的生成任务,如基于多个属性的条件生成和通过数据增强提高罕见细胞类型分类时,可以改善关键生物数据特征的恢复。通过在各种生物数据集和设置上展示CFGen,我们提供了其对计算生物学和深度生成模型领域的价值的证据。
- 图表
- 解决问题CFGen论文旨在解决单细胞RNA测序数据生成中存在的问题,即现有的深度模型无法考虑数据的离散和过度分散的性质,从而限制了下游应用和妨碍了噪声模型的强健性。此外,当前基于深度学习的单细胞生成模型的关键方面仍未得到充分探索,如可控的多模态和多标签生成及其在下游任务性能提升中的作用。
- 关键思路CFGen提出了一种基于流的条件生成模型,用于多模态单细胞计数,明确考虑数据的离散性质。它可以在多个属性的条件下生成单细胞数据,从而提高了罕见细胞类型分类的性能。
- 其它亮点CFGen在多个生物数据集和设置上进行了展示,证明了它对计算生物学和深度生成模型领域的价值。它还展示了在不同的条件下生成的单细胞数据的多样性和可控性,并通过数据增强来提高罕见细胞类型的分类性能。此外,该论文还提供了开源代码和数据集,方便其他研究人员使用和参考。
- 近期还有一些相关研究,如DeepCAB和scVI-VAE等。
沙发等你来抢
去评论
评论
沙发等你来抢