DRUGAI
细胞是理解健康与疾病的核心,但传统模型在模拟其复杂功能和行为方面仍存在诸多局限。随着人工智能和组学技术的飞速发展,创建AI虚拟细胞(AIVC)成为可能,为生物学研究带来了革命性机遇。AIVC是一种基于多尺度、多模态大规模神经网络的创新模型,能够动态表征并精准模拟分子、细胞和组织在不同状态下的行为。2024年12月12日发表在Cell期刊的综述文章《How to build the virtual cell with artificial intelligence: Priorities and opportunities》全面阐述了AIVC的设计愿景,并深入探讨了通过跨领域协作构建AIVC的路径。AIVC不仅可实现高保真模拟,加速科学突破,还能有效指导实验研究,为深入理解细胞功能提供前所未有的视角,同时推动开放科学中的跨学科合作与创新。

引言
细胞,作为生命的基本单位,是一个极其复杂的实体,其特性和行为挑战了物理和计算建模的极限。每个细胞都是一个动态且适应性的系统,其复杂行为源于无数分子间的相互作用。一些特性对干扰表现出极高的鲁棒性,例如基因的删除或用不同物种的同源基因替代;而另一些特性则对细微的改变非常敏感,比如一个点突变或外部因素的影响可能会导致细胞功能失调和疾病的发生。
为了理解细胞功能,科学家们尝试构建虚拟细胞模型,以模拟、预测并引导细胞行为。虚拟细胞的定义是一个模拟细胞生物功能和相互作用的计算模型。现有的细胞模型通常是基于规则的,结合了对基础生物机制的假设以及从观测数据中拟合的参数。它们通常依赖于显式定义的数学或计算方法,例如微分方程、随机模拟或基于代理的模型。这些模型的复杂程度各不相同,涵盖了细胞生物学的不同方面,例如转录和翻译、由细胞骨架驱动的细胞行为、生化网络或代谢通量。2012年,首个全细胞模型被开发出来,代表了一种生物体中已知的全部482个基因和分子功能:细菌 Mycoplasma genitalium。自此之后,已有基因组范围的模型被开发用于代表其他细菌生物体,包括 Escherichia coli。
尽管这些方法在生物系统建模中被广泛使用,但迄今为止,它们仍无法充分捕捉细菌及更复杂系统(如人类细胞)中的许多操作特点。这些挑战包括:
多尺度建模:细胞在时间和空间上运作于多个尺度,从原子、分子到细胞和组织学层面,其功能特性通过非线性转换从一个尺度到另一个尺度涌现。
多样化过程及大量交互组分:细胞功能涉及多个交互过程,例如基因调控、代谢通路和信号传导。每个过程都包含大量生物分子种类,并以多样且动态的配置和状态存在。
非线性动力学:大多数细胞过程具有高度非线性特性,即输入的微小变化可能导致输出的复杂变化。因此,尽管在特定细胞过程的建模中已有进展,这些因素综合起来仍对虚拟细胞的构建构成了重大阻碍。
科学与技术的两大激动人心的革命——人工智能和组学技术——如今为直接从数据中学习构建细胞模型提供了可能。这两场平行的革命为一个雄心勃勃的愿景提供了前所未有的机遇:AI虚拟细胞(AIVC)。AIVC是一个基于多尺度、多模态的大规模神经网络模型,能够表征并模拟分子、细胞和组织在多种状态下的行为(如图1所示)。

实验技术的指数级进步显著提升了数据采集能力,使得在不同细胞和组织系统内及跨系统间积累了大量且不断增长的参考数据集。过去几年中,这些数据每6个月翻一番,同时具备了将测量与系统性干预相结合的能力。
在计算领域,人工智能的同步进步增强了从数据中直接学习模式和过程的能力,无需明确规则或人工标注。这些建模范式已在生物分子领域取得成功,例如从序列预测三维(3D)分子结构以及分子组分之间的相互作用。最新的AI建模方法提供了集预测性、生成性和可查询性于一体的表示和推理工具,这些特性是推动生物学研究和理解的重要工具。基于这些特性,我们提出目前已有方法开发完全数据驱动的、基于神经网络的AI虚拟细胞(AIVC)模型,该模型可通过快速的计算模拟研究和强大的计算-实验桥梁,加速生物医学研究。
AIVC的创建将开启生物学高保真模拟的新时代,使癌症生物学家能够模拟特定突变如何将细胞从健康状态转变为恶性状态;发育生物学家预测特定祖细胞干预对发育谱系演化的影响;微生物学家则可以预测病毒感染对受感染细胞及宿主生物体的影响。AIVC将赋能实验科学家和理论学家,革新假设生成与优先级排序的方式,让生物学家能够跨越显著扩展的研究范围,更好地适应生物学的巨大规模。尽管这些细胞模型可能无法直接揭示机制性关系,但可以作为有效缩小机制假设搜索空间的工具,从而加速对细胞功能潜在因素的发现。

本文基于广泛的社区讨论,包括由陈-扎克伯格计划组织的一次研讨会,旨在点燃构建大型长期合作研究议程的火花,并制定开发、实施和部署AIVC的路线图。我们描绘了一个受到AI在细胞生物学领域新兴进展所催化的愿景,并探讨了其在构建细胞虚拟表示方面的应用。文章提出了在数据生成、AI模型开发、基准测试、结果解释以及确保生物学真实性与安全性等方面的优先事项和发展机遇。通过鼓励跨学科开放科学合作,涵盖学术界、慈善机构、生物制药和AI产业,我们认为全面理解细胞机制的目标近在眼前。AIVC有潜力彻底革新科学研究过程,推动对新生物学原理的理解,并增强人类智能,为可编程生物学、药物发现和个性化医学的未来突破奠定基础。

AI虚拟细胞(AIVCs)
AIVC是一种能够在不同条件和背景下模拟细胞及细胞系统的学习型模拟器,例如分化状态、干扰、疾病状态、随机波动和环境条件(图1)。在此背景下,虚拟细胞应整合细胞生物学的广泛知识,跨越生物学尺度、时间以及数据模态,帮助揭示细胞系统的编程语言,并为其在工程领域中的应用提供接口。
特别是,AIVC需要具备以下能力:
创建跨物种、模态、数据集和背景的生物状态通用表示(UR),包括细胞类型、发育阶段和外部条件;
预测细胞功能、行为和动力学,并揭示其背后的机制;
通过计算实验生成和验证新的科学假设,并指导数据收集以高效扩展虚拟细胞的能力。
通用表示(URs)
AIVC将生物数据映射到UR空间(图1A),从而为揭示共享状态提供洞见,并作为全面的参考。URs需整合分子、细胞和多细胞三个物理尺度,并兼容任何相关模态和背景的贡献。这种整合使研究人员能够利用AIVC的丰富生物知识,将新数据与现有信息互补,弥补数据间的差距,并为每次分析提供全面的背景。
多层次表示还需具备泛化能力,以适应未在AIVC训练数据中出现的新状态。这种涌现能力将解锁对未直接观测到或自然界中不存在的生物状态的发现。例如,通过对训练中类似实例(如巨噬细胞的炎症状态)的暴露,AIVC可能预测出小胶质细胞中未知的炎症状态。此外,AIVC还应能够预测由干预导致的新状态(或实现指定状态所需的干预),从而为细胞工程和合成生物学提供广泛的下游应用。
预测细胞行为与理解机制
AIVC的一项核心功能是模拟细胞响应与动力学。通过对广泛的快照、时间分辨、非干预和干预数据集进行训练,AIVC能够理解在自然或工程信号(如化学或基因干扰及其组合)作用下的分子、细胞和组织动力学。
AIVC应具备预测实验室中未测试过的干扰响应的能力,同时考虑干扰测试所处的具体细胞背景。此外,AIVC还需能够模拟细胞状态在内在和外在因素作用下的时间演化及其多细胞空间排列的结果。通过建模细胞状态的瞬态特性及条件的连续变化,AIVC可揭示诸如发育、稳态维持、病理发生及疾病进展等多种动态过程中尚未研究的轨迹。
对于已观察到的表型及其轨迹,理解其分子机制是另一项重要挑战。AIVC可通过模拟不同干预的效果,提出表型潜在的因果因素。AIVC的多尺度设计还能跨尺度推断细胞功能的基础,连接细胞内过程与细胞及组织水平的表型,从而为研究与多种表型和行为相关的机制开辟新途径。
尽管通过计算并不总能揭示表型的因果因素,但AIVC有潜力缩小可能假设的范围。通过模拟不同干预的效果,AIVC可以基于不确定性程度提出潜在因果因素,并为科学家提供实验验证的方向。
计算实验与数据生成指导
AIVC的核心功能还包括指导数据生成与实验设计。AIVC应能够通过所谓的“虚拟仪器(VIs)”进行查询,这些VIs是当今实验室实验的计算孪生体。例如,虚拟实验可以在难以体外培养的细胞类型中模拟实验,或利用低成本测量(如无标记成像)模拟昂贵的实验结果(如单细胞转录组数据)。此外,虚拟实验还能在实验室难以实现的规模下筛选大量可能的干扰因子组合,为探索组合干扰的指数级大空间提供解决方案。
AIVC将引领设计新生物学实验的计算系统新范式。在这一框架中,AIVC不仅能设计实验以验证特定科学假设,还能增强自身能力。借助对预测结果赋予置信度的能力,AIVC可通过交互式查询,引导实验人员找到生成附加数据的最有效路径,从而在低置信区域实现精细改进。通过扩展到主动且迭代的“实验室-计算闭环”过程,AIVC性能的扩展将更加高效和聚焦。最终,AIVC甚至可能识别其自身生物学理解中的关键空白,并提出最有效的弥补路径。
构建AI虚拟细胞(AIVC)
设想的AIVC是一个全面的人工智能框架,由多个互联的基础模型组成,这些模型以日益复杂的组织水平动态表征生物系统,从分子到细胞、组织及更高层次。我们的构建方法主要包含两个核心组件:
通用多模态多尺度生物状态表示(UR)
虚拟仪器(VIs),即操作或解码这些表示的神经网络。
尽管构建AIVC可能存在其他方法,我们认为这一方法提供了一个可协作扩展的框架,有助于在开放科学的背景下推动AIVC的发展。

通用表示(URs)
UR是通过多模态AIVC基础模型生成的嵌入,即将高维多尺度多模态生物数据转化为保留有意义关系和模式的数值表示。AIVC可以捕捉细胞生物学的三个物理尺度:
分子及其结构:包括细胞内的分子及其相互作用。
单个细胞:由这些分子及其结构组成的空间集合。
细胞之间及其与非细胞环境的相互作用:以组织和器官为代表的多细胞水平。
每个物理尺度通过独特的UR表示,基于上一层生成的抽象构建,从而实现跨尺度的联系。
虚拟仪器(VIs)
VIs是操作UR的神经网络,其输入为UR,输出为目标结果。我们定义两种类型的VIs:
解码器(decoders):输入UR,生成可供人类理解的输出,例如细胞类型标签或合成显微镜图像。
操作器(manipulators):输入UR,生成经过干扰后的新UR,例如干扰后细胞状态的表示。
这些VIs能够跨实验、数据集和使用场景共享和重用,科学家可以基于UR开发VI并与社区共享。此外,VIs还可模拟真实仪器(如显微镜),促进开发特定于仪器的实验-计算闭环系统。
分子尺度建模
AIVC的首层表示分子物种,例如DNA、RNA和蛋白质,它们可用字符序列表示(核苷酸或氨基酸)。这类数据特别适合于自然语言处理(NLP)开发的方法,例如大型语言模型(LLMs)。通过高通量基因组测序,训练数据丰富且持续增长,能够支持有效训练生成分子UR的模型。
此外,可以训练针对DNA、RNA和蛋白质的联合生物语言模型,以最大化数据互操作性和训练语料规模。然而,对于不易表示为序列或非常小的分子(如脂质和代谢物),序列建模可能表现不足。在此情况下,可使用基于原子级别的神经网络建模分子,这种方法虽然计算成本高,但在静态结构建模方面具有很高的准确性。
细胞尺度建模
细胞层次的UR表示单个细胞的状态,通过分子及其他特征(例如影像数据)描述分子组分的组织和丰度。关键步骤是整合分子的学习表示、数量、抽象化的位置和时间戳,构建统一的细胞表示。
细胞UR的数据来源包括单细胞水平的测量(如单细胞RNA测序、染色质可及性、染色质修饰和蛋白组学),以及可解析亚细胞分辨率的影像技术(如荧光共聚焦显微镜和冷冻电镜)。模型架构可采用视觉变换器或卷积神经网络(CNNs)以处理影像数据,结合序列数据和影像技术,形成动态且具有预测性的多视图细胞模型。
此外,随着AIVC的复杂性增长,还需对细胞器及无膜结构进行建模,以确保预测的准确性、机制解释性及模型的泛化能力。
多细胞尺度建模
多细胞层次的UR描述细胞在二维组织切片和三维组织体积中的组织方式,探讨细胞间相互作用如何形成组织、器官及整体生物体。数据来源包括空间分子测序和非分子组织影像数据,建模方法包括图学习技术(如图神经网络)及卷积神经网络。
这一层次的UR能够结合单细胞数据与组织空间信息,通过整合不同模态数据,提供多组学二维和三维数据集的通用表示。

预测细胞行为与理解机制
VIs通过在UR嵌入上操作,简化动态过程的抽象表示。操作器可通过生成模型预测细胞或分子状态的演变,而解码器能够识别并解释与特定表型或过程相关的分子通路和相互作用。尽管建模细胞的动态过程仍面临挑战,AIVC的多模态设计为研究机制性假设提供了新的可能性。
计算实验与数据生成指导
操作器VIs可在UR空间中探索广泛的假设,进行虚拟实验。例如,基于干扰提示预测UR的变化,并通过条件生成模型训练AIVC,预测特定干扰(如环境变化、基因突变或化学处理)的细胞响应。
通过对预测结果赋予置信水平,AIVC可引导实验设计和数据生成,优化生物属性目标,从而成为实验-计算闭环体系的重要组成部分。通过实验验证预测、生成假设并逐步扩展知识,AIVC将推动对驱动生物功能的分子网络的系统性理解。

数据需求与要求
构建AI虚拟细胞(AIVC)的关键在于确定需要收集哪些数据集和模态以确保其有效开发。与传统实验设计旨在验证特定科学假设不同,AIVC的数据收集应侧重于确保其广泛适用性和泛化能力。为了实现这一目标,数据需要覆盖不同领域和模态,反映生物多样性和异质性,同时能够区分技术噪声、随机生物变异和生理差异。
数据生成需要同时探索时间和空间尺度,并允许系统受到干扰的情况下进行观察。传统影像技术(包括活细胞成像)与新型结构成像技术(如冷冻电子断层扫描和软X射线断层扫描)以及新兴的空间组学技术,为跨尺度建模生物分子和功能提供了机会。此外,生物过程的时间跨度极广,从皮秒级的快速反应到持续数小时或数天的细胞分裂,甚至长达数年的肿瘤发展和数十年的神经退行性变化。近年来构建的通用细胞图谱可作为建模长期时间尺度(如组织形成)的重要资源,而对于较短时间尺度的细胞行为数据(如活细胞成像),需要开发新的方法来建立类似的数据集。
除了分子测量,数据收集的另一个重要方面在于测量细胞的生物物理和生化属性,以为AIVC提供物理和化学真实性的边界条件。
多模态数据集的需求
多模态数据对于AIVC的开发至关重要。例如,将单细胞转录组数据与组织学相结合,可揭示细胞间如何相互作用以及支持特定空间微环境形成的分子特征。然而,需要进一步开发技术以更好地捕捉分子特征、细胞行为、细胞调控和组织结构之间的关系。
尽管虚拟细胞建模的核心兴趣在于人类数据,以帮助理解疾病和开发新疗法,但在人类体内进行可控实验和干扰的能力有限。3D组织生物学(如类器官培养系统)为在3D环境中研究组织架构和功能的复杂性提供了工具,同时允许对系统进行干扰。此外,通过对跨进化历史的多样物种在不同条件下的全系统性分析,可以进一步克服这一限制。理想情况下,大型数据集应跨分子、细胞和多细胞三个物理尺度进行收集,从而使AIVC的应用范围超越疾病研究,涵盖工业生物技术、农业生物技术、传染病和气候变化等领域。然而,基于当前的数据收集趋势,建模动物细胞仍然是最为现实的方向。
探索组合空间
生物学空间通常是高维的,其变体的枚举通常不可行。例如,仅考虑基因组的所有可能变体或干扰因子的组合实验设计就极具挑战性。由于组合可能性迅速超出实验和计算的实际能力,需要开发新的方法来探索这些组合空间。
构建AIVC需要多少数据?
尽管生物数据的原始规模巨大,但单个人类细胞系统的名义复杂度也使得构建AIVC的初步估算变得困难。例如,生物序列数据的存储库中包含数十PB级的数据量,其中许多可能是冗余的,或者在训练中效果递减。因此,需要深入研究数据规模与模型性能之间的关系。
除了数据规模外,数据的多样性和质量对于确保模型性能至关重要。目前,数据集中来自人类及模式生物(如小鼠和大肠杆菌)的数据代表性不均,可能导致训练中物种偏倚。此外,性别、特定疾病或人类祖先群体等方面的偏倚也可能降低AIVC模型的影响力。
尽管在数据端需要努力,推动AIVC的AI模型也必须设计为能够适应和解决这些挑战,即具备整合不同来源和质量数据集的鲁棒性。随着实验室技术的快速发展(导致无法统一在单一平台上),以及AIVC所需涵盖的模态和细胞系统的多样性,这一点尤为重要。随着虚拟细胞研究的深入,模型开发者、实验数据生成者和资助机构之间的对话需要进一步加强,以实现协作和资源优化。
模型评估
对于AIVC的开发,更重要的问题或许不是“如何构建它们”,而是“如何建立对其能力和可信度的信任”。为此,需要一个全面且灵活的基准测试框架。尽管已有许多框架针对特定生物学问题(如蛋白质结构预测模型)而开发,AIVC需要展示其在众多生物学情境和下游任务中的泛化能力。这包括应对因环境变化、感染、基因变异等因素引起的分布转移。
超越泛化能力,AIVC还可能具备涌现能力,能够外推至真正的分布外数据。在生物学背景下,决定评价中分布边界的定义可能会比较困难。新的分子、细胞状态甚至物种都可能被认为属于训练分布。例如,一个新分子可能在数据集中有同源分子,甚至是远缘同源分子;一个新细胞类型可能执行现有细胞类型中发现的基因程序;一个新菌株可能与训练数据中的现有物种密切相关或生存在类似环境中。因此,外推可能需要聚焦于设计自然界不存在的生物实体,这种评价方式已经在分子设计领域得到实践。
AIVC的评估应优先考虑泛化能力和新生物学的发现。泛化能力衡量模型在未见情境(如新细胞类型和遗传背景)中的表现,可通过跨模态重建任务进行评估,如根据细胞形态预测基因表达或预测显微镜图像序列中下一帧图像。通过评估泛化能力,可增强对AIVC捕捉核心生物过程并理解其在不同情境中变化的信心。
最终,AIVC模型应以其解锁理解生物学新途径的能力为评价标准。这将确保模型开发与生物学的实际相关性保持一致。初步的有用成果可能是生成可测试的假设,例如细胞生长速率、分子特征、蛋白质相互作用的破坏或转录因子结合相关的实验验证数据集。随着AIVC能力的提升,统计性能指标是否足够,或者可解释性和生物因果关系是否成为核心要求,需要进一步考量。
可解释性与交互性
生物学中科学发现的标志之一是对观察现象创建机制模型。构建虚拟细胞时,可能需要放弃构建完全机制模型的能力,而转向从数据中学习并预测超出观测范围的交互。然而,追求更高的可解释性仍然是可取的。
AIVC的每个预测都应提供相关的多尺度交互,以确定结果状态。例如,理解某个细胞子系统或蛋白质复合物在患病组织中如何被破坏,有助于开发治疗干预措施。AIVC的模块化结构将使研究人员能够明确每种预测行为涉及的具体基因、蛋白质或分子过程。此外,通过分析大型模型的连接模式,可以揭示诸如蛋白质之间的组合生物交互,并将其投射到可解释的空间中,而不限制模型的泛化能力。
最终,构建一个交互层以帮助不同专业背景的研究人员有效理解和利用AIVC的预测至关重要。由大型语言模型(LLMs)构建的AI代理可以充当虚拟研究助手,为非专业人员提供直观的界面。这些语言模型可以利用其对科学文献的广泛理解,深入解读AIVC的预测结果。
开放协作的愿景
创建AIVC需要巨大的投入、广泛的背景知识以及多次迭代,仅通过协作的开放科学努力才能推动其发展。科学界应努力确保虚拟细胞的开发和使用对整个科学界开放且具有响应性。这需要开放数据资源和数据标准、一个用于细胞建模的协作平台,以及尤其重要的开放基准数据集和验证策略,以确保其生物学真实性和实际效用。
为此,需要考虑几个关键参数。首先,确保AIVC能够代表并造福全人类,捕捉人类祖先、性别和地理多样性,同时保护个体隐私。其次,随着AIVC模型规模的增长,其训练、微调或使用成本也会增加。因此,在多样化数据收集、基础设施建设以及虚拟细胞模型托管平台方面的投资至关重要。这些平台应促进生物学家、临床医生、统计学家和计算机科学家之间的协作,并提供快速测试和基准新模型的机会。最后,生物医学生态系统中的利益相关者需要实现协同合作,包括慈善机构、学术界、生物制药行业和人工智能行业。
展望与乐观理由
基因组学和遗传学领域已创建了诸多大型参考数据集,为训练机器学习模型提供了丰富的数据支持。这些努力催生了一个新的并行方向:创建细胞生物学的虚拟模拟。
AIVC的成果有潜力彻底改变科学研究过程,为生物医学研究、个性化医学、药物发现、细胞工程和可编程生物学的未来突破奠定基础。作为虚拟实验室,AIVC将实现计算实验数据与物理实验室结果之间的无缝连接,推动对生物过程的更统一理解。
通过连接计算系统、现代生成式AI和生物学,AIVC将帮助科学家将细胞理解为信息处理系统,并构建虚拟生命模型。随着AIVC对细胞和分子系统理解的深入,将更好地支持我们对这些系统的编程和设计新型合成生物实体。AI模型已经被用于设计新的CRISPR酶、功能性蛋白质,甚至完整的原核基因组。这种精确性和工具的快速进步将进一步加速AIVC的发展。
我们坚决倡导开放科学方法,通过数据、模型和基准的共享,实现持续改进的气候。在AI与生物学交汇的时代,AIVC代表了生物学研究的范式转变,为揭示细胞的多重奥秘带来新的希望。
整理 | WJM
参考资料
How to build the virtual cell with artificial intelligence: Priorities and opportunities. Bunne, Charlotte et al.
Cell, Volume 187, Issue 25, 7045 - 7063
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢