细胞对于理解健康与疾病至关重要，然而传统模型在模拟和表征其功能与行为方面存在不足。人工智能与组学技术的进步为构建人工智能虚拟细胞（AI virtual cell，AIVC）提供了突破性机遇，这是一种基于大规模神经网络的、多尺度、多模态的模型，能够表征和模拟分子、细胞及组织在不同状态下的行为。本视角阐述了其设计理念，以及构建 AIVC 的协作努力将如何通过实现高保真模拟、加速发现进程、指导实验研究，从而变革生物学研究，为理解细胞功能提供新机遇，并促进开放科学背景下的跨学科合作。

论文：How to build the virtual cell with artificial intelligence: Priorities and opportunities

单位：斯坦福大学、Genentech、Chan Zuckerberg Initiative、瑞士洛桑联邦理工学院、Arc Institute、瑞典皇家理工学院、加利福尼亚大学、哥伦比亚大学、Cellarity、哥伦比亚大学欧文医学中心、陈-朱利叶生物中心、加州大学伯克利分校、微软研究院、谷歌研究院、NewLimit、Schmidt Futures、Calico Life Sciences LLC、Chan Zuckerberg Biohub、西北大学、欧洲分子生物学实验室细胞生物学和生物物理学部门、哈佛医学院、华盛顿大学、布罗特曼·巴蒂精准医疗研究所、西雅图合成生物学中心、霍华德·休斯医学研究所、进化尺度公司、德国慕尼黑亥姆霍兹中心、慕尼黑工业大学、加利福尼亚州旧金山格拉德石心血管疾病研究所、劳伦斯伯克利国家实验室、多伦多大学、矢量研究所、卡内基梅隆大学、阿联酋哈利法人工智能大学、麻省理工学院与哈佛大学联合研究所

发布日期：2024

下载论文：https://t.zsxq.com/nhEsC

请索引第98篇论文

AI正在"数字孪生"生命的基本单元

01 为什么这篇论文值得你认真读？

如果你做 GNN / 几何深度学习 / 生成模型 / 基础模型，并且一直在寻找那个"下一个NLP级别"的落地方向——这篇Cell Perspective给出的答案是：细胞。不是抽象的数学对象，而是活生生的、多尺度的、带噪声的、非平衡的、真正复杂的生物信息系统。

这篇由 Stanford、EPFL、CZI、Arc Institute、Microsoft Research、Google Research 等机构联署的Perspective，提出了一个极其宏大的愿景：

构建一个 AI Virtual Cell（AIVC）——一个基于大规模神经网络的"通用细胞模拟器"，它能学习从分子→细胞→组织的统一表示，并在其中做 in silico 实验（计算机里的"培养皿"）。

这不是传统的基于ODE/PDE的机制建模（那是老派whole-cell modeling的路子），而是一篇旗帜鲜明地站在数据驱动+基础模型立场上的宣言书。

02 一句话概括AIVC：它到底想干什么？

论文给出了一个非常清晰的定义：

AIVC = 一个 learned simulator，用多尺度、多模态的 foundation model，把"细胞状态"压进一个连续的 embedding space（Universal Representation, UR），然后用神经网络模块（Virtual Instruments）在这个空间里做操作和解码。

拆开来看，AIVC要做三件事：

核心能力	做什么	为什么难（也是机会所在）
Universal Representation (UR)	把跨物种、跨条件、跨模态（转录组/蛋白组/图像/空间组学…）的生物数据映射到同一个连续向量空间	异质性爆炸 + 技术噪声与真实生物学信号纠缠 + 不同平台间batch effect
预测细胞行为与机制推断	给定当前细胞UR，预测扰动后"下一个状态"（分化、药物响应、突变致瘤…）并反推可能因果通路	细胞是非平衡动力系统，时间尺度横跨ps到数十年，组合扰动空间指数爆炸
In Silico 实验 + 指导数据生成	用"虚拟仪器"(VI)在UR空间里做computational screening，输出"下一步该做哪个湿实验"的active learning策略	需要校准置信度/不确定性，否则就是"幻觉式生物学"

03 架构全景：三层物理尺度 × 两种虚拟仪器

这是全文最核心的骨架。论文用一张对比表把物理细胞的层级与AI虚拟细胞的镜像设计对齐：

表1：物理细胞 vs. AI虚拟细胞——层级映射关系

物理细胞的层级	物理世界中发生了什么	AIVC 中对应的设计
分子层 (Molecular)	DNA→转录→RNA→翻译→蛋白→代谢物；分子间相互作用、PTM、凝集	Molecular UR：将序列（nt/aa）或原子结构编码为embedding；可用生物LLM / 原子级GNN / equivariant networks
细胞层 (Cellular)	分子在亚细胞位置聚集形成功能；形态、信号网络、转录状态	Cellular UR：聚合分子UR + 定量（scRNA-seq/scATAC/蛋白组）+ 空间定位 + 影像特征 → 统一细胞状态embedding
多细胞层 (Multicellular)	细胞通过空间邻近通信组成niche → 组织 → 器官；TME微环境	Multicellular UR：将空间转录组/成像数据组织为graph或point cloud，用GNN/ ViT提取组织级embedding

然后，Virtual Instruments (VI) 分两类操作这个UR空间：

VI类型	输入 → 输出	类比	典型例子
Manipulator VI（操纵器）	UR → UR'（扰动后的新状态）	"virtual pipette / CRISPR / drug"	化学/遗传扰动→预测细胞状态转移；可用conditional diffusion / flow matching / neural optimal transport
Decoder VI（解码器）	UR → 人类可读输出	"virtual microscope / FACS readout"	预测细胞类型标签、合成显微图像、表型、药物响应曲线

关键洞察：因为所有VI共享同一套UR，它们可以组合、复用、社区共享——就像你写一个PyTorch module然后pip install一样。这暗示了一个open-source ecology：任何人都能挂自己的VI到公共AIVC backbone上。

04 深入到每一层：对你做AI的启示

4.1 分子层 —— 生物序列 = 另一种"语言"，但别太迷信纯LLM

论文直言不讳：DNA/RNA/蛋白作为字符序列，天然适合Transformer-based LLM（DNABERT, ESM, Evo等等）。但它也警告：

序列 ≠ 全部分子实体。糖基、脂质、小分子代谢物、金属离子……不一定能塞进token串
原子级建模（AlphaFold/RoseTTAFold All-Atom路线）更普适但算力吃紧、动态构象仍难
所以务实路线：sequence-based UR做主干，原子-level做精修/特定模块

对你做AI的启发：如果你在想"我的GNN/Transformer还能pretrain在什么新domain上"——生物序列+结构联合预训练仍然严重under-explored，尤其是跨分子类型的统一tokenizer。

4.2 细胞层 —— 这里是多模态融合的主战场

单个细胞的状态 = 一串基因表达 × 染色质可及性 × 蛋白丰度 × 亚细胞定位 × 形态。

论文给出的技术拼图：

模态	AI工具	痛点
scRNA-seq / scATAC	Transformer / autoencoder (scVI系谱)	dropout、稀疏、批次效应
成像（形态、荧光）	CNN / Vision Transformer / MAE-style self-supervised	光学差异、光照、染色协议异构
空间组学	GNN over spatial graph + 跨模态对齐	分辨率-通量权衡、配准

本质上就是一个 multi-view representation learning + cross-modal alignment 问题——这正是近几年ML顶会（NeurIPS/ICLR）里最活跃的方向之一，只不过这里的"view"不是RGB和Depth，而是 reads count matrix 和显微镜像素。

论文特别提到一个优雅想法：用 cell morphology（可低成本获取） 预测/补全 transcriptome（昂贵）——这本质上是 cross-modal imputation / retrieval，也是你可以用对比学习（InfoNCE）直接上手的任务。

4.3 多细胞层 —— GNN人的主场

到了组织尺度，细胞之间的空间关系自然形成图：

节点 = 一个细胞的UR embedding（基因表达/蛋白marker）
边 = 空间邻近 / 已知ligand-receptor通信

论文明确点名：GNN和equivariant networks是这一层的workhorse。

任务	GNN怎么用
识别TME niche	消息传递捕获邻域上下文 → 发现"免疫排除型"vs" inflamed"空间模体
细胞-细胞通信推理	边特征 = 距离/接触面积/L-R pair score；node更新=接收邻居信号
组织级状态预测	全局readout（sum/attention pooling）→ 肿瘤进展/纤维化评分

如果你lab在做 GNN for spatial data，这篇论文等于给你一份从Cell级背书的应用场景清单：空间转录组 + GNN = 最接近"可规模化落地"的交叉切口。

05 Figure 1 解读：AIVC的三大能力环（论文的核心主张图）

论文用Figure 1勾勒了AIVC能力的逻辑闭环，我们把它转述为三段：

(A) 通用表示 UR —— "把一切变成同一个latent"

UR 可以从不同物种、不同条件、不同模态得到。今天你给它scRNA-seq，明天给它空间蛋白+ H&E，后天给它活细胞延时摄影——全投影到同一空间。

这意味着UR不只是embedding，它是跨数据集的统一坐标系统（很像HuBMAP/ CZ CELLxGENE想做但没有用foundation model做的事）。

(B) 预测 + 动力学 —— "从快照推轨迹，从UR推干预"

UR空间里你可以：

插值与外推：已知巨噬细胞炎症态A和B → 预测从未见过的微胶质炎症态
动力学建模：diffusion / flow matching 在UR空间里学 vector field（细胞状态转移的连续流）
反问题：给定目标状态（如"健康β细胞表型"），反推需要的perturbation组合

这就是论文所说的：AIVC把假设生成从"做一次实验再想"变成"在潜空间里穷举 → 只做实险率最高的几个"。

(C) 可用性三层面 —— 开放科学的现实检验

层面	要求
个体 scientist	open license + 算力民主化；用LLM agent做自然语言查询接口
科学共同体	超越narrow benchmark的评估；community-driven迭代
社会	敏感数据隐私（医院数据/个人基因组）

这一段其实是在提前回应批评："又一个硅谷大厂把生物数据吸走" 的担忧。

06 Box 2 的四个"未来故事"——帮你向老板/审稿人讲清楚Why Care

论文用四个应用 vignette 来具象化AIVC的价值：

场景1：表型药物发现 & 细胞治疗工程

传统靶点-centric筛选忽略疾病背景下的全细胞状态
AIVC可以做 virtual phenotypic screen：在silico试不同干预组合×不同病人profile
胰岛β细胞例子：simulate驱动分化→cloak from immune→维持功能，指导工程或in situ编辑

场景2：空间生物学×癌症——泛癌TME框架

肿瘤微环境的空间niche决定免疫逃逸
AIVC跨多个癌种学shared niches → 旧药新用（找相似态→迁移已有治疗方案）
加上肿瘤测序→不只看表达变化，还model 功能变化（LoF / PTM / PPI rewiring）

场景3：个体化诊断的数字孪生

每个人有personalized AIVC实例：基因序列 + 外周血sc-profile + 病理影像 + EHR
周期性更新（liquid biopsy transcriptomics作cheap update signal）
甚至用可采样细胞（血/皮）推断不可采样细胞（胰岛β/神经元）——这是UR跨模态对齐的直接红利

场景4：假设生成的主动学习闭环

传统：experiment → analyze → hypothesize
AIVC模式：explore vast hypothesis space in silico → 挑information gain最大的实验 → lab-in-the-loop迭代
终极愿景：self-driving lab for cell biology

07 他们没回避的硬骨头：数据、评估、可信度

7.1 数据需要多少？

论文给了冷冰冰的数字：SRA（Short Read Archive）已经 >14 PB，是ImageNet的千倍以上——但大量冗余。核心瓶颈不是"更多数据"而是：

瓶颈	具体表现
多样性 > 体量	人/小鼠/E.coli极不均衡；性别/祖先/疾病亚型偏置
跨平台标准化	scRNA-seq protocol A ≠ protocol B，更别说跨模态对齐
时间分辨率	大多数据是静态snapshot；动力学需要timelapse / lineage tracing
组合扰动	双敲/三敲的组合空间炸掉，必须靠active learning而非穷举

7.2 怎么评估一个"虚拟细胞"？

这是最深的问题——不是accuracy of one prediction，而是generalizability + 是否真的帮人发现新生物学。

论文建议的benchmark方向：

Cross-modal reconstruction：给形态 → 预测未见细胞的基因表达（反之亦然）
Out-of-distribution extrapolation：新细胞类型/新物种/新分子（定义"分布边界"本身就是开放问题）
最终判据：产生可验证的实验假设（phenotype那类能在bench上测的）

7.3 可解释性——不做黑盒怎么做科学？

论文的态度很诚实：

我们可能放弃fully mechanistic的精确重建（那需要第一性原理+参数你永远测不到），但可以通过modular结构 + multi-scale wiring分析来锚定可检验的因果因子集——把搜索空间缩小，让wet lab去验证。

这条路线上，attention weight / gradient attribution / concept activation vectors / causal discovery on the graph——都是可以嫁接的技术。

08 Box 3 速览：AIVC技术栈一览（给AI人快速索引）

架构	最适合的生物学对应	论文中的角色

Transformer	生物序列（DNA/RNA/aa）；也用于cell-as-bag-of-genes（per-token = RNA molecule / gene）	molecular UR的主力；加position encoding处理序列依赖

CNN / ViT	显微图像（荧光/H&E/活细胞成像）；多通道复用成像	细胞形态→embedding；也可当decoder VI合成虚拟图像

Diffusion Flow Matching	细胞状态分布的连续演化（分化轨迹、扰动响应分布）	manipulator VI的核心：条件生成 UR'\|perturbation

GNN	空间邻接图（细胞-细胞）；分子结构图（残idue-level）	multicellular UR + 空间niche发现

09 批判性视角：乐观在哪里，风险在哪里？

为什么现在可行（而10年前不行）

以前缺什么	现在有什么
数据量	scRNA-seq爆炸（百万级细胞公开）、CZ CELLxGENE、Human Cell Atlas、空间组学起飞
模型	Transformer扩展律验证、扩散模型成熟、GNN/equivariant nets标准化
算力+生态	GPU/A100/H100; PyTorch; 开源单细胞工具链

但仍需警惕

Correlation ≠ Mechanism：高保真预测≠理解。论文知道这点，但社区压力会倾向于"把它当oracle"
数据偏差制度化风险：如果训练语料以欧美、富裕机构样本为主，AIVC的"通用"可能是伪通用
过度参数化的诱惑：用100B参数memorize 14PB组学数据 ≠ 学到可泛化生物规律
评估鸿沟：benchmarks比Kaggle难一万倍，因为ground truth常常是另一个同样有noise的实验

10 给你的Actionable Takeaways

如果你是这个公众号的核心读者——AI方向本硕博 / 交叉学科老师——这篇论文至少给出三条可执行的research angle：

Angle 1：把你的GNN/Transformer/Diffusion经验"移植"到组学数据

空间转录组的 graph construction + message passing 设计空间还很大（adaptive edges? physics-informed priors?）
跨模态对齐（表达↔图像）用 contrastive / optimal transport（论文本身就cites neural OT和Gromov-Wasserstein方向）

Angle 2：Uncertainty Quantification = 决定AIVC能否上bench的关键

Deep ensemble / conformal prediction / Bayesian NN
论文专门提了：没有uncertainty就没有active learning，没有active learning就只是"炫技生成"
这是ML方法论贡献可以直接改变生物学实践的少有机会

Angle 3：Open infrastructure > 单篇SOTA

论文最后一节几乎是呼吁："我们需要的是CERN式协作，不是各自刷private榜。"

如果你在考虑长远影响力——参与/共建 open AIVC backbone + benchmark suite，可能比发一篇method-only paper更有复利。

交叉之火最有意思的地方，不在AI吃掉生物，而在两者互相逼迫对方变严格。
AIVC的赌注是：细胞可以被"潜空间化"——而一旦成功，bench biologist和算法工程师说的就是同一种语言。

如果你对文中某个模块（比如"用GNN做空间转录组的具体pipeline""flow matching在UR空间的推导细节""conformal prediction给perturbation prediction做uncertainty"）想继续深挖，欢迎留言，我们可以拆出续篇做code-level的技术拆解。

微信群

内容中包含的图片若涉及版权问题，请及时与我们联系删除

AI+生物论文 | Cell 2024 | 如何使用人工智能构建虚拟细胞：优先事项和机遇