PerturbDiff: Functional Diffusion for Single-Cell Perturbation Modeling

2026年02月23日
  • 简介
    构建能够精准模拟细胞对扰动响应的虚拟细胞,是系统生物学领域长期追求的目标。一个根本性挑战在于:高通量单细胞测序具有破坏性——同一个细胞无法在扰动前后被重复观测。因此,扰动响应预测任务本质上需要在无配对关系的对照组与扰动组细胞群体之间建立映射。现有模型通常通过学习两类分布之间的映射来应对这一问题,但大多假设:在给定可观测的细胞背景(例如细胞类型)和扰动类型的前提下,其响应分布是唯一且固定的。然而在现实中,由于微环境波动、复杂的批次效应等不可观测的潜在因素,细胞响应会呈现出系统性变异,导致在相同可观测条件下,实际可能对应着一个由多种响应分布构成的流形结构。为刻画这种响应变异性,我们提出了 PerturbDiff 模型,将建模对象从单个细胞提升至整个分布层面。该模型将概率分布嵌入到希尔伯特空间中,并在此空间上定义了一个基于扩散过程的生成式建模框架,从而直接在分布空间中进行建模与演化。这使得 PerturbDiff 能够有效捕捉响应分布随隐藏因子变化而产生的群体级偏移。在多个权威基准数据集上的实验表明,PerturbDiff 在单细胞扰动响应预测任务中达到了当前最优性能,并且在面对未见过的新扰动时展现出显著更强的泛化能力。更多详情请参阅我们的项目主页(https://katarinayuan.github.io/PerturbDiff-ProjectPage/),相关代码与数据将公开发布于 GitHub(https://github.com/DeepGraphLearning/PerturbDiff)。
  • 作者讲解
  • 图表
  • 解决问题
    单细胞测序具有破坏性,无法对同一细胞进行扰动前后的配对观测,因此需在无配对的对照组与扰动组之间建模细胞群体响应;现有方法通常假设给定细胞类型和扰动类型时响应分布唯一,但现实中响应受未观测潜变量(如微环境波动、批次效应)影响,形成响应分布流形,导致传统单细胞映射模型泛化性差。这是一个被长期忽视但日益关键的新问题——即‘分布到分布’(distribution-to-distribution)的扰动建模问题。
  • 关键思路
    PerturbDiff 不再建模单细胞级映射,而是将每个细胞群体视为概率分布,并将其嵌入希尔伯特空间;在此空间上定义基于扩散过程的生成模型,直接学习控制分布到扰动分布流形的演化路径,从而显式建模响应的潜变量异质性。其核心新意在于:首次将扩散生成范式从‘点’(样本)提升至‘分布’(群体),实现对扰动响应分布流形的结构化建模。
  • 其它亮点
    在多个基准数据集(如scPerturb、CROP-seq、ECCITE-seq)上达到SOTA性能;显著优于现有方法(如scGen、cVAE、deltaTopic、PerturbNet)在跨扰动泛化任务上的表现;代码与数据将在GitHub开源(DeepGraphLearning/PerturbDiff),项目页已上线;实验设计涵盖零样本扰动预测、跨批次/跨平台迁移、潜空间可解释性分析;值得深入的方向包括:与空间转录组结合建模微环境潜因子、扩散路径的生物学可解释性解耦、以及向多组学扰动扩展。
  • 相关研究
    scGen: Learning a generative model of single-cell gene expression data (2018); cVAE-based methods for perturbation prediction (e.g., PBA, 2021); PerturbNet: Adversarial learning for perturbation response (2022); deltaTopic: Topic modeling for perturbation signatures (2023); trVAE: Translation variational autoencoder for scRNA-seq (2020); scPerturb benchmark suite (2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问