AI驱动虚拟细胞模型：重塑药物研发范式的技术全景

文献来源：Ma C, Zhang H, Rao Y, et al. AI-driven virtual cell models in preclinical research: technical pathways, validation mechanisms, and clinical translation potential. npj Digital Medicine, 2026, 9: 25.
DOI：10.1038/s41746-025-02198-6

导读

生命科学正处于一场深刻的范式转变之中。传统药物研发高度依赖动物实验与湿实验室验证，流程漫长、成本高昂、转化效率低下。而随着单细胞测序、空间转录组学与大规模AI算法的协同成熟，一种全新的研究工具——AI驱动的虚拟细胞（AI-driven Virtual Cell）——正从概念走向实践，有望在分子机制研究与临床前药物评价之间架起一座数据驱动的桥梁。

这篇发表于《npj Digital Medicine》的系统综述，由中南大学湘雅医院、蚌埠医科大学等机构的研究者联合撰写，从技术路径、验证机制、应用场景、监管合规四个维度对该领域进行了迄今最为全面的梳理，是理解这一新兴交叉方向的重要参考。

一、核心概念：虚拟细胞是什么？

虚拟细胞（Virtual Cell）是一种计算模型，能够在多种扰动条件下模拟细胞的功能状态、信号网络及其动力学变化。区别于传统规则驱动的机制模型，AI驱动的虚拟细胞从大规模、多模态生物数据中学习隐含模式，构建可预测的细胞状态空间。

值得注意的是，文献中存在术语碎片化问题——"虚拟细胞""数字细胞""数字孪生"等概念相互交叠，本文以"虚拟细胞"作为统一标签。其核心能力体现在三个层次：

层次	描述
亚细胞层	模拟细胞器动态、代谢通量、离子通道电生理等分子过程
单细胞层	预测基因扰动、药物处理下的转录组状态转变与表型变化
细胞群体层	重建细胞间通讯网络、组织微环境及空间结构

二、技术路径：四大支柱

2.1 多模态组学数据整合

构建高精度虚拟细胞的首要挑战是整合异质性生物数据，包括单细胞RNA测序（scRNA-seq）、空间转录组（ST）、表观基因组学、蛋白质组学与代谢组学。

核心技术进展：

• 跨模态融合：SpatialScope利用深度生成模型将高维scRNA-seq数据投影至ST坐标，提升分辨率并填补缺失基因；scAdapt通过对抗训练对齐ST与scRNA-seq的分布，改善空间解卷积精度。
• 多组学联合分析：基于VAE（变分自编码器）的scVI/totalVI框架实现转录组与蛋白质组联合去噪分析；MultiVI将转录组与表观基因组映射至共享潜在空间，用于细胞类型分类与谱系分析。
• 调控网络整合：GLUE模型融合先验调控网络，将异质单细胞组学投影至共享嵌入空间，已在百万级细胞的跨物种整合中得到验证。
• 时空轨迹重建：moscot框架基于最优传输理论，将多模态单细胞组学整合为时空连续的发育轨迹，其预测的关键调控因子已获实验验证。

数据来源与偏倚校正：大规模公共数据库（TCGA、HPA、GEO）为模型训练提供了关键支撑，但均存在固有偏差。ComBat、Harmony等批次效应校正方法，以及域适应技术，是提升模型泛化能力的重要手段。

2.2 组学基础模型与跨层级迁移学习

在数亿细胞规模上预训练的组学基础模型，为细胞类型注释和基因功能推断提供了强大的通用表示：

• GeneFormer：通过迁移学习实现网络生物学预测，具备强大的零样本能力
• scFoundation：大规模单细胞转录组基础模型，支持多类下游任务
• State：Arc研究所开发，训练规模超过1亿细胞，在跨细胞类型药物响应扰动预测中达到当前最优性能

跨尺度迁移的关键挑战在于将基因/细胞层面学到的知识迁移至患者层面，需要显式建模组织微环境、药代动力学等系统约束。CODE-AE、scDEAL、CSG2A等工作探索了从细胞系到患者肿瘤转录组的跨尺度预测，初步验证了该路径的可行性。

2.3 深度生成模型

深度生成模型是构建可预测、可生成细胞状态空间的核心工具，其主要架构包括：

• VAE-GAN混合框架：如UNAGI，捕捉特发性肺纤维化的单细胞动态，预测nifedipine的潜在抗纤维化活性，并在患者肺组织与蛋白质组学中得到验证
• 流匹配（Flow Matching）：直接学习数据分布间的连续时间变换，高效生成高维结构化数据
• 扩散模型（Diffusion Models）：scDiffusion结合预训练基础模型，生成高保真、高多样性的单细胞转录组数据

重要局限：当前深度学习方法在基因扰动效应预测任务上整体并未显著超越简单线性基线；而融合知识图谱的GEARS框架在多基因扰动转录响应预测中实现约40%的准确率提升，机制先验的引入至关重要。

2.4 图神经网络

细胞间通过信号通路、细胞通讯网络和空间邻接相互影响，图神经网络（GNN）天然适合对这种拓扑结构建模：

• scGNN：将scRNA-seq嵌入图结构，应用多层图卷积进行特征聚合，在细胞类型鉴定、缺失值填补与轨迹推断方面优于传统t-SNE/UMAP方法
• PINNACLE：整合scRNA-seq与蛋白质-蛋白质互作网络，通过图注意力机制检测稀有亚群和调控模式，辅助免疫细胞亚型分类
• DrugCell-GNN：融合细胞转录组、药物分子图与已知靶点网络，预测抗癌药物敏感性与协同效应
• SpaGCN：耦合空间邻接与表达矩阵，解析肿瘤微环境异质性

2.5 物理信息神经网络

物理信息神经网络（PINNs）的核心思想是将已知的生物物理定律、动力学方程嵌入训练过程，确保预测结果具备生物学合理性：

• VCBA平台：结合细胞器级动态模型（线粒体膜电位变化、活性氧生成）与剂量-时间积分模型，高度准确地预测药物诱导的肝损伤（DILI）和心脏毒性
• 代谢通量约束：将通量平衡分析（FBA）与神经网络结合，在保持代谢通量守恒的同时提升环境扰动响应预测精度
• 电生理先验：将Hodgkin-Huxley方程嵌入心肌细胞模型，更准确预测药物诱导的动作电位变化

主要挑战：PINNs的预测上限取决于生物物理知识的完备程度与动力学参数的可获得性，而非算力规模；多约束权重的选取与训练收敛性仍是关键难题。

三、验证机制：计算-实验-转化三环闭合

文章提出了一套系统的三环闭合验证架构，每环各有明确的入口、决策与出口节点：

3.1 计算内环

在严格数据分区、批次协调与预分析质控的前提下，主要评估指标包括：

• 分布一致性：Wasserstein距离、KL散度、最大均值差异（MMD）——比较扰动模拟细胞群与实验观测群的统计分布
• 预测准确性与稳定性：在留出场景下评估模型预测与真实结果的一致性
• 不确定性量化：蒙特卡洛Dropout估计后验预测分布置信区间；模型集成评估跨模型输出一致性

方法论注意：单细胞实验的破坏性决定了无法对同一细胞重复测量，评估应聚焦于群体分布层面而非个体预测，需谨慎定义"预测准确率"的内涵。

3.2 实验中环

模型预测须通过近生理实验系统的靶向检验：

• CRISPR功能验证：通过基因敲除/过表达验证模型提名的关键调控靶点
• hiPSC-CM平台：Wang等基于人iPSC来源心肌细胞构建体内外转化平台，准确预测阿霉素与曲妥珠单抗的心脏毒性发生率，与临床观察高度吻合
• VCBA实验验证：Worth等用VCBA模拟FCCP、咖啡因、胺碘酮在HepaRG肝细胞和心肌细胞中的分布及线粒体膜电位效应，精确复现体外毒性指标
• 类器官验证：Harter等利用患者源性肠道类器官与免疫细胞共培养体系，评估T细胞双特异性抗体的脱靶毒性，与临床报告一致

3.3 转化外环

跨平台复现与前瞻性数据集构成主要验证场景：

• 综合泛化性、稳定性、可解释性的多维证据评判部署就绪程度
• 安全性审查与失效模式分析作为补充
• 域外性能偏离预设范围时触发特征工程与实验设计的协同优化

四、主要应用场景

4.1 精准药物筛选与机制推断

• 靶点发现：模拟基因敲除/过表达，预测下游分子网络与表型变化，优先验证模型预测效应显著的靶点
• 大规模虚拟筛选：State模型实现百万化合物级别的高通量虚拟筛选，评估纠正病理细胞状态的能力与毒副作用风险
• 假说驱动研究：将新调控因子假说嵌入模型测试是否能复现已知现象，引导针对性实验设计——如moscot预测的关键调控因子已获实验证实
• 机制解析：揭示NEUROD2在胰腺ε细胞分化中的作用、解析特发性肺纤维化的单细胞动态等

4.2 数字孪生与个性化医疗

数字孪生通常指特定实体的高保真虚拟副本，能接收实时数据并进行动态仿真。将虚拟细胞嵌入数字孪生框架，可实现从分子-细胞到整体器官的多尺度综合模拟：

• 罕见病研究：结合患者特异性干细胞来源虚拟模型与表型数据，模拟个性化用药效果，在临床前阶段即可完成高效低毒候选化合物的大规模虚拟筛选
• 疾病预测与监测：持续输入患者生物标志物数据，虚拟细胞模型可模拟疾病进展的细胞演变过程，为耐药信号提供早期预警

4.3 边界界定与互补定位

尽管虚拟细胞能力强大，文章明确强调其应用边界：

• 对于涉及组织形态变化等复杂多细胞行为，传统多细胞建模或实验方法仍不可或缺
• 在需要明确机制理解的研究中，虚拟细胞应作为探索性工具，最终机制阐明须结合传统实验与解析模型
• 虚拟细胞与单细胞谱系追踪等新兴技术的互补整合，是提升参数校准质量的重要方向

五、平台工具生态

文章对现有平台按建模目标与方法论基础进行系统分类：

尺度	代表平台	核心特性
分子/亚细胞	VCell、COPASI、BioNetGen、Smoldyn	ODE/SDE生化网络、规则驱动信号、粒子级随机反应-扩散
单细胞/多细胞	PhysiCell、CompuCell3D、Morpheus	3D组织级ABM（代理基础建模）、细胞力学与反应-扩散耦合
器官/系统	Chaste、OpenCOR/CellML、OpenSim	心脏电生理、多尺度心脏力学、生物力学
AI驱动	DeepCell、CellPose、NVIDIA Modulus	细胞图像分割分析、物理约束神经网络框架

六、临床转化：伦理、合规与监管

6.1 监管政策演进

• 美国：2022年《FDA现代化法案2.0》明确允许以人源化细胞模型、类器官、器官芯片及AI/ML模型替代动物实验数据用于IND申报；2025年FDA发布首份AI模型用于药物研发的指导草案，提出基于风险的模型可信度评估框架。
• 欧洲：ECHA与EU REACH法规强化了非动物测试方法的采纳，部分毒理学评估框架已纳入计算建模与生物信息学预测工具。

总体判断：全球监管趋势对AI驱动替代方法持审慎支持态度——认可其潜力，同时通过立法与指南确保其在决策中的可靠性与透明度。

6.2 监管与实施挑战

• 统一标准缺位：各团队在数据来源、模型架构、参数设置、验证流程上存在显著差异，缺乏统一第三方基准测试平台，限制了结果的可比性与可重复性
• IND审查不确定性：目前无统一标准规定支持IND申请所需的预测准确率阈值，逐案审查导致申请方难以预判所需验证深度
• 审查能力瓶颈：复杂虚拟细胞模型的审查需要计算生物学、机器学习与疾病生物学的跨学科专家，大多数监管机构目前仍存在人力资源缺口

6.3 数据隐私与安全合规

• 法规遵从：中国PIPL要求健康数据本地存储并获取明确同意；美国HIPAA要求PHI加密与去标识化；欧盟GDPR强制要求患者数据隐私保护；欧洲健康数据空间（EHDS）倡议正推进研究数据的安全共享与标准化复用
• 技术手段：差分隐私（向模型参数注入校准噪声，模糊个体特征）、联邦学习（各机构本地训练，仅共享模型权重更新）是当前主流解决方案
• 深度学习的记忆风险：生成模型可能"记忆"训练样本的独特特征，极端情况下可在输出中复现部分原始训练数据，须在模型发布与共享时部署隐私保护机制

6.4 知识产权与责任归属

• 数据提供方、模型开发方、终端用户之间的权益边界尚不明确
• 模型预测被用于支持关键研发或临床决策，因错误预测导致不良后果时的责任归属存在争议
• 监管机构与法律界应提前介入，建立适配AI模型应用的责任认定框架与保险机制

6.5 算法公平性与可解释性

• 偏见风险：若训练数据主要来自西方人群，模型在东亚人群等的预测精度可能系统性偏低，需通过增加数据多样性并引入公平性约束加以缓解
• 可解释AI（XAI）工具：SHAP值分析与积分梯度可量化模型输出对各输入特征的依赖程度，为"为何该基因突变被判为致病性"或"为何预测药物A优于药物B"提供可追溯依据

七、未来展望

7.1 术语标准化

推动采用标准模型描述语言（SBML、CellML）表示虚拟细胞模型，建立公共模型与数据仓库，是提升跨平台共享与复用效率的基础工程。

7.2 技术瓶颈的系统性突破

• 建立模型可信度分级框架：依据训练数据规模、验证严格性等因素分层评定预测置信度，并与不同应用场景所需的验证强度对应
• 解决跨尺度耦合问题：从单细胞虚拟模型向组织级应用过渡，仍需在类器官和动物模型中完成中间验证与参数校准

7.3 跨学科多尺度整合

虚拟细胞将与类器官、器官芯片、数字孪生深度融合，实现分子-细胞-组织-器官-个体的多尺度统一建模。新兴多模态大模型将进一步提升虚拟细胞的泛化推断能力。

7.4 国际协作与开放科学

• 2025年虚拟细胞挑战赛：通过开放竞赛测试未见细胞类型的扰动响应预测，推进方法可比性
• PyTDC（治疗数据共享）：聚合药物发现与单细胞基准数据，提供统一评估框架
• 开放问题单细胞分析倡议：发布基准数据集与指标，协调社区解决方案

结语

AI驱动的虚拟细胞模型代表着生命科学研究从"湿实验室主导、验证驱动"向"数据驱动、模拟-验证闭环"的深刻转型。技术能力的快速进步正在缩短这一工具从前沿探索到主流应用的距离，但监管接受度、数据合规、模型可解释性与跨尺度整合等挑战，仍需产学研监多方协同推进。

这篇综述为理解该领域的现状、瓶颈与未来方向提供了一张清晰的全景地图，值得相关领域研究者系统阅读与深入参考。

内容中包含的图片若涉及版权问题，请及时与我们联系删除