Nat. Biotechnol.｜通用生物人工智能在生命语言建模中的应用

通用生物人工智能(GBAI)代表了一种对“生命语言”(即从DNA到细胞功能的信息流)进行建模的变革性方法。为此，哈佛大学医学院、斯克里普斯研究所等机构的研究人员于2026年3月20日在《Nature Biotechnology》上发表综述文章，题为“Generalist biological artificial intelligence in modeling the language of life”。

文章整合了生物人工智能领域的快速发展，旨在解读并生成DNA、RNA、蛋白质及细胞系统。通用生物人工智能将有望深化我们对疾病通路和生物标志物的理解，推进自动化治疗设计与评估，并与虚拟细胞相集成，从而对生物活动进行有意义的模拟。

通用生物人工智能GBAI

生成式人工智能的最新创新使得开发通用模型成为可能，这些模型能够执行多种分析下游任务，包括分类、预测和生成，且无需为每种应用进行大量训练。虽然目前大多数生物AI模型所执行的任务仅限于单一领域，但能够预见生物AI的下一个前沿将是跨多种生物数据类型(如核酸序列、蛋白质结构、显微镜图像、细胞表征等)进行处理和预测。具体而言，作者将GBAI定义为一种愿景，旨在构建统一的系统，该系统能够跨多个生物领域进行解读、合成和扩展，从而有效执行需要跨领域理解的多种生物任务(图1)。未来，这些整体性方法将具备整合不同分子生物学层次的遗传和细胞数据的潜力，从而推动科学设计与发现。

图1 通用生物人工智能愿景

GBAI的发展为生物AI领域内提出的许多令人振奋的愿景(如虚拟细胞、AI驱动的数字生物以及其他稳健的生物模拟形式)提供了可能的基础。尽管这些愿景代表着更为长远的目标，但GBAI基于当前模型的发展方向提供了一个切实可行的框架，并规划了通往多任务、多领域模型的路径，这些模型可作为集成的计算机生物模拟的有效构建模块和交互式封装器。同样，许多生物AI模型也存在若干必须克服的局限性。表1概述了具有代表性的、覆盖不同尺度的生物AI模型的优势与局限性。

表1 代表性多任务生物人工智能模型的优势与局限性

语言建模。生物AI方法试图将生物序列作为一种语言来建模，其方式类似于流行的大语言模型(LLM)，利用通用的学习表征同时执行各种下游任务。这些方法主要采用基于Transformer的架构和传统的LLM训练技术，例如掩码语言建模，即在训练过程中，模型被训练来预测序列中被掩码的部分。当前的语言模型主要解读单一类型的生物序列，例如核苷酸、氨基酸或基因表达。核苷酸语言模型已用于分析和生成DNA及RNA序列，但其在处理输入中的长程依赖关系方面能力有限，在某些下游任务上表现与更简单的模型相当，并且其使用的分词方法可能导致生物信息丢失。从氨基酸序列中学习的蛋白质语言模型(PLM)已被应用于预测蛋白质功能、稳定性及其他特性，以及进行蛋白质分类、突变筛选和生成未曾探索的蛋白质序列。然而，对于更困难的任务，单独的PLM通常表现不如集成的结构预测方法。

结构与设计。除了通过语言框架对生物序列进行建模外，生物AI模型也已适用于结构预测和生物分子设计。大多数结构模型依赖于多序列比对(MSA)，即将生物分子不同版本的同源序列进行比对，以编码该序列在其进化过程中的变异并获得位置上下文信息。代表性方法包括AlphaFold、RoseTTAFold等。生物分子设计方面，模型现在可以预测为特定任务设计的蛋白质序列和主链坐标，尽管还需要进一步的实验验证来评估所预测生物分子稳定折叠并实现生物学功能的能力。除此之外，模型也已用于核苷酸序列的靶向生成和设计，当前的方法因核苷酸结构数据相对缺乏而受到限制。

图像分析。生物AI在显微镜与组织学图像分析中展现了多任务能力。CellPose等模型支持跨成像模态的分割任务；Virchow、UNI等视觉模型可完成癌症检测、生物标志物识别、细胞核分割等任务。视觉-语言模型(如PLIP)进一步实现了图文检索与报告生成。但模型在领域外图像、罕见病变及临床前瞻性验证方面仍存在局限。

整合专用模型。为单一目标而非多任务开发和优化的专用模型，在那些受益于特定领域知识或缺乏足够数据来训练大型基础模型的应用中仍然有效。生物AI系统可以不将基础模型适配到专用模型已经擅长的任务上，而是直接将专用模型整合到其工作流程中。这可以采取多种形式，例如由这些模型提供嵌入以整合多个生物尺度，协助特定任务的模型评估，或作为更广泛网络中的适配层。此外，编排和协调各种专用模型的智能体框架可以在保持多任务方法灵活性的同时，利用每个专用组件的独特优势。

数字生物学的新前沿

一旦实现，GBAI将具有巨大的潜力在多个维度上改变数字生物学。当前的生物AI模型已经开启了加速科学发现、智能体AI以及向虚拟细胞迈进等新前沿(图2)。

图2 生物人工智能在细胞处理不同维度的应用。生物人工智能为数字生物学开辟了三个新的前沿领域：编排专用模型的智能体工作流(红色)、跨生物领域学习并加速科学发现的多模态编码器(蓝色)以及能够通过联合潜空间建模分子活性的虚拟细胞框架(黄色)。

加速科学发现。GBAI有望通过建模DNA变异、基因表达与调控网络，加深对疾病机制的理解，并推动治疗发现。AI引导的定向进化、生物分子设计与配体结合预测可显著降低实验筛选成本。结合跨领域、多层次的预测能力，未来GBAI系统可实现更高效的计算机模拟实验，加速药物发现与开发。

面向科学的智能体AI。智能体AI通过将LLM与规划、记忆、工具调用相结合，实现了自主实验设计与执行。多智能体框架可在人类反馈下协同完成假设生成、实验规划、数据分析等任务，已在纳米抗体设计、药物重定位、单细胞注释等场景中展现潜力。尽管前景广阔，但智能体方法也存在许多与LLM相同的局限性，例如知识截止到特定时间、需要精心的提示工程以及存在幻觉。克服这些挑战的未来智能体框架，将为设计能够编排多个模型和生物实验自主工作流的跨领域GBAI系统带来巨大希望。

在虚拟细胞中的集成。创建虚拟细胞已成为数字生物学的一个主要目标，其模拟旨在有朝一日完整表征细胞功能，并预测在细胞加工过程的任何维度上的扰动响应。最近提出的AI虚拟细胞(AIVC)概念认为，开发AIVC首先需要一个能够以物种无关方式表示细胞状态的通用表征。近期的模型受限于所训练的数据，但正努力朝这一方向迈进。鉴于生物AI的最新发展，未来能够跨多个生物尺度进行有效综合和预测的GBAI系统，是朝着虚拟细胞迈进的下一个潜在步骤，因为它们可以实现更真实的分子和细胞生物学模拟，并考虑到跨生物层次复杂的依赖性。

实现生物AI潜力所面临的挑战

在迈向通用生物人工智能的进程中，仍存在若干挑战。除了克服与复杂生物系统建模相关的固有困难外，数据、模型能力和实验验证等方面的制约因素都构成了重大障碍(图3)。

图3 当前生物人工智能算法所面临挑战

生物基础模型局限性。基础模型训练成本高、可解释性差，且在多项任务中表现未显著优于更简单的专用模型。在调控模式解读、突变效应预测、单细胞分类、基因扰动模拟等场景中，基础模型甚至表现相当或更差。建立更可靠、更具生物学意义的标准化基准，对于评估其真实价值至关重要。

拓展AI的能力。当前模型在长序列处理、多领域联合编码、跨模态整合等方面能力有限。核苷酸模型难以捕捉增强子等长程调控元件，多领域数据(如DNA、RNA、蛋白质、基因表达)的整合仍缺乏统一框架。未来需进一步提升模型上下文长度与联合编码能力，以支持更复杂的跨领域建模。

克服生物复杂性。生物系统的高阶复杂性给AI建模带来巨大挑战。蛋白质多结构域结构、RNA功能与配体结合、蛋白质-配体相互作用等预测仍存在瓶颈。扰动模拟尤其困难，因扰动空间的复杂性且缺乏大规模扰动响应数据集。

数据局限性。现有数据在物种代表性、任务相关性、多模态整合等方面存在不足。原核生物测序数据占比过高、真核数据匮乏限制了DNA模型的泛化能力；蛋白质功能与序列关联数据稀缺；RNA结构数据不足；成像平台视野有限。开发更大规模、更高质量、更具代表性的多物种、多模态数据集，是推动GBAI发展的关键。

跨生物背景的实验验证。模型预测转化为生物学洞见需依赖稳健的实验验证，包括分子、细胞、组织乃至生物体水平的测试。目前多数生物AI模型缺乏系统性的湿实验验证，或验证深度不足。虽然虚拟细胞等概念为生物AI算法在细胞层面进行有效的计算机模拟验证提供了未来前景，但就目前而言，计算机模拟验证在准确、全面地捕捉生物系统复杂性方面的能力严重受限。体内验证仍不可或缺，类器官与组装生物系统的发展为桥接计算与实验验证提供了新路径。

总结

生物AI的最新进展为建模“生命语言”开辟了新前沿，在序列注释、三维结构生成、配体结合预测及治疗设计等方面取得了长足进步。在此势头之上，展望下一代生物AI模型将进一步改进现有架构，扩展统一系统所能处理的任务广度，并扩展现有的大规模多物种及多模态数据集。随着这些基础得以奠定，通用生物人工智能(GBAI)有望整合跨越不同生物尺度与细胞过程的输入信息；结合自动化计算机模拟测试系统以及允许更广泛的主干模型调用专业工具的智能体框架，模型将能够在更复杂的跨领域任务中展现出更强的预测能力。在克服当前算法能力上的关键挑战并收集更具代表性的数据集之后，GBAI将有望解开“生命语言”所固有的诸多复杂性。

参考链接：

https://doi.org/10.1038/s41587-026-03064-w

--------- End ---------

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Nat. Biotechnol.｜通用生物人工智能在生命语言建模中的应用

评论列表

评论