Nature子刊多篇文章速览: 大模型赋能的科学发现

导语

在科学研究迈向智能化的当下，大语言模型正逐步打破传统AI仅擅长文本和图像生成的固有边界，深入渗透到材料科学、生物医药与复杂系统预测的核心领域。本期图智决策精选的Nature系列前沿研究，这些工作展现了“语言即物质结构”、“文本即生物功能”的跨模态生成范式：CrystaLLM将晶体结构建模转化为自回归文本生成问题，成功合成出多种未见于训练集的稳定新材料；ProteinDT引入多模态预训练框架，首次实现由自然语言引导的蛋白质设计；Token-Mol打通分子3D构象生成与属性预测，用token统一编码结构与性质，在速度与性能上全面超越扩散模型；TrinityLLM借助物理合成数据，实现对数据稀缺下聚合物性能的精确预测。

与此同时，科学大语言模型也在向“可解释科学发现”迈进：LLM4SD挖掘文献与分子数据的符号逻辑，用规则驱动分子性质建模；PandemicLLM则将疫情预测重构为文本推理任务，融合政策、行为、基因等非结构信息实现高精度预测；SciToolAgent则基于知识图谱自动编排数百种科学工具，重塑多工具科学工作流的交互范式。这些研究共同揭示了一个趋势：大语言模型不仅能“说出科学”，更正在“生成科学”与“发现科学”，AI for Science 正迎来从“跨模态表征”到“跨学科推理”的系统跃迁。

本文聚焦于大语言模型赋能的科学发现，遴选了7篇来自Nature系期刊中关于这一话题的文章。

研究领域：大语言模型，分子网络，蛋白质合成，多智能体，疫情预测

曾利丨编辑

Frank丨审校

图智决策丨来源

论文一：基于自回归大模型的晶体结构生成

论文题目：Crystal structure generation with autoregressive large language modeling

基于自回归大模型的晶体结构生成

论文来源：Nature Communications

论文链接：https://www.nature.com/articles/s41467-024-54639-7

代码链接：https://github.com/lantunes/CrystaLLM

一作单位：University of Reading，UK

摘要：产生合理的晶体结构通常是根据材料的化学成分预测材料结构和性能的第一步。然而，目前大多数晶体结构预测方法的计算成本很高，减缓了创新的步伐。使用高质量生成的候选者进行种子结构预测算法可以克服主要瓶颈。在这里，我们介绍了 CrystaLLM，这是一种基于晶体学信息文件（CIF）格式的自回归大语言建模（LLM）的晶体结构的多功能生成方法。CrystaLLM 经过数百万个 CIF 文件的训练，专注于通过文本对晶体结构进行建模。CrystaLLM 可以为训练中看不到的各种无机化合物产生合理的晶体结构，正如从头开始模拟所证明的那样。我们的方法挑战了传统的晶体表示，并展示了大语言模型在学习有效晶体化学模型方面的潜力，这将加速材料科学的发现和创新。

Fig. 1

核心图：基于自回归大模型的晶体生成流程。a 训练模型的核心概念：通过标记化将 CIF 文件（左）转换为一系列符号。该序列由模型处理，该模型为输入中的每个相应符号生成词汇表上的概率分布列表。使用交叉熵损失指标根据目标分布（包含正确后续标记上的整个概率质量）评估生成的预测概率分布。目标标记是向左移动一个位置的输入标记，因为目标是在给定一系列前面标记的情况下预测下一个标记。标记分为CIF标记（蓝色）、原子（绿色）、数字（金色）和标点符号（红色）。输出标记（在训练期间未实际采样）表示模型分配最高概率的标记。带下划线的标记表示预测的分布，为正确的下一个标记分配相对较低的概率。b 生成CIF文件：首先，通过将符号data_与所需的单元格组成连接起来来构造提示，然后由模型对其进行标记和处理。接下来，从序列中即将到来的Token的预测分布中采样一个Token。最后，采样的Token将添加到 CIF 文件的累积内容中。此过程继续迭代，直到满足预定义的终止条件（例如，对两个连续的换行符进行采样）。

论文二：基于文本数据进行蛋白质设计的多模态框架

论文题目：A text-guided protein design framework

基于文本数据进行蛋白质设计的多模态框架

论文来源：Nature Machine Intelligence

论文链接：https://www.nature.com/articles/s42256-025-01011-z

代码链接：https://github.com/chao1224/ProteinDT

一作单位：University of California Berkeley, USA

摘要：目前的人工智能辅助蛋白质设计主要利用蛋白质顺序和结构信息。同时，人类以文本格式收集了大量描述蛋白质高级功能的知识，但尚未探索这些文本数据的结合是否有助于蛋白质设计任务。为了弥合这一差距，我们提出了 ProteinDT，这是一个利用文本描述进行蛋白质设计的多模态框架。ProteinDT 由三个连续的步骤组成：ProteinCLAP，它对齐两种模态的表示，一个从文本模态生成蛋白质表示的促进器，以及一个从表示创建蛋白质序列的解码器。为了训练 ProteinDT，我们构建了一个大型数据集 SwissProtCLAP，其中包含 441,000 个文本和蛋白质对。我们定量验证了 ProteinDT 在三项具有挑战性的任务中的有效性：（1）文本引导蛋白质生成的准确率超过 90%;（2）12个零样本文本引导蛋白质编辑任务的最佳命中率;（3）在六分之四的蛋白质特性预测基准上表现出色。

核心图：ProteinDT 预训练框架与下游任务的流程（a–c 为预训练，d–f 为下游任务）。(a) ProteinCLAP：一种对比学习范式，用于对齐文本模态与蛋白质序列模态的表示空间。(b) ProteinFacilitator 模型：增强从文本序列表示到蛋白质序列表示的映射能力。(c) 蛋白质序列解码器：基于前一步生成的表示来生成蛋白质序列。(d) 下游任务：文本到蛋白质的生成。(e) 下游任务：文本引导的蛋白质编辑。(f) 下游任务：蛋白质性质预测。

论文三：用于分子性质预测的科学发现大模型

论文题目：Large language models for scientific discovery in molecular property prediction

用于分子性质预测的科学发现大模型

论文来源：Nature Machine Intelligence

论文链接：https://www.nature.com/articles/s42256-025-00994-z

代码链接：https://github.com/zyzisastudyreallyhardguy/LLM4SD

一作单位：Monash University，Australia

摘要：大语言模型（LLM）是一种人工智能系统，以自然语言的形式封装了大量知识。这些系统擅长许多复杂的任务，包括创意写作、讲故事、翻译、问答、摘要和计算机代码生成。尽管大语言模型在自然科学中已经得到了初步应用，但它们在推动科学发现方面的潜力在很大程度上仍未被探索。在这项工作中，我们介绍了LLM4SD，这是一个旨在利用LLM通过综合文献知识和从科学数据中推断知识来推动分子性质预测的科学发现的框架。大语言模型通过从科学文献中提取既定信息来综合知识，例如分子量是预测溶解度的关键。对于推理，LLM 可以识别分子数据中的模式，特别是在简化的分子输入线输入系统编码的结构中，例如含卤素分子更有可能穿过血脑屏障。这些信息以可解释的知识的形式呈现，使分子能够转化为特征向量。通过将这些功能与随机森林等可解释模型一起使用，LLM4SD 可以在一系列预测分子特性的基准任务中超越当前最先进的技术。我们预计它将提供可解释的和潜在的新见解，有助于分子性质预测的科学发现。

核心图：用于分子性质预测的LLM4SD大模型的工作流。从文献中综合知识。在此阶段，大语言模型根据预训练的文献综合知识，以执行预测 BBBP 等任务。例如，分子量低于 500 Da 的分子更有可能通过血脑屏障。b，从数据中推断知识。在这里，大语言模型分析数据，例如带有标签的 SMILES 字符串（1 表示 BBB 渗透性，0 表示非 BBB 渗透性），以识别模式。例如，他们可能会观察到含有卤素的分子有更高的机会穿过血脑屏障。c、模型训练。通过合成和推断规则，分子可以根据其相应的规则值转换为载体表示。然后，矢量化表示可用于训练可解释模型。d，可解释的见解。模型经过训练后，它会提供解释其如何进行预测的见解。例如，在 BBBP 预测的背景下，模型可以揭示每个规则的重要性，显示哪些规则对最终预测很重要。

论文四：知识图谱驱动的多工具集成科学智能体

论文题目：SciToolAgent: a knowledge-graph-driven scientific agent for multitool integration

知识图谱驱动的多工具集成科学智能体

论文来源：Nature Computational Science

论文链接：https://www.nature.com/articles/s43588-025-00849-y

代码链接：https://github.com/hicai-zju/scitoolagent

一作单位：Zhejiang University, China

摘要：科学研究越来越依赖专门的计算工具，但有效利用这些工具需要大量的领域专业知识。虽然大语言模型在工具自动化方面显示出前景，但它们难以无缝集成和编排多种工具以实现复杂的科学工作流程。在这里，我们介绍 SciToolAgent，这是一种由大语言模型驱动的代理，可自动执行生物学、化学和材料科学领域的数百种科学工具。SciToolAgent 的核心是利用科学的工具知识图谱，通过基于图的检索增强生成实现智能工具选择和执行。该代理还包含一个全面的安全检查模块，以确保负责任和合乎道德的工具使用。对精选基准的广泛评估表明，SciToolAgent 优于现有方法。蛋白质工程、化学反应性预测、化学合成和金属有机框架筛选方面的案例研究进一步证明了 SciToolAgent 自动化复杂科学工作流程的能力，使专家和非专家都可以使用先进的研究工具。

核心图：SciToolAgent 概览。(a) 研究中使用的工具集，其中包括通用工具以及常用的生物学、化学和材料相关工具。(b) SciToolKG 的模式架构，涵盖了每个工具的多样信息，如输入/输出格式、特定功能、安全等级等。(c) SciToolAgent 的整体工作流程：在接收到用户查询后，基于 LLM 的 Planner（规划器） 会利用基于 SciToolKG 的检索增强生成（RAG）来生成工具链，随后由基于 LLM 的 Executor（执行器） 顺序执行。接着通过 安全检查模块 调用安全数据库，以确保生成的解决方案符合伦理与安全要求。最后，基于 LLM 的 Summarizer（总结器） 对执行结果进行总结，评估问题求解过程，并在必要时提示 Planner 生成新的工具链。最终答案会被存储到 记忆模块 中，作为下一次查询的上下文。（arxiv版的图，对比了，没什么出入）

论文五：基于大语言模型的分子化药物设计

论文题目：Token-Mol 1.0: tokenized drug design with large language models

基于大语言模型的分子化药物设计

论文来源：Nature Communications

论文链接：https://www.nature.com/articles/s41467-025-59628-y

代码链接：https://github.com/hicai-zju/scitoolagent

一作单位：Zhejiang University, China

摘要：将大语言模型（LLM）集成到药物设计中的势头正在增强;然而，现有方法往往难以有效地结合三维分子结构。在这里，我们介绍了 Token-Mol，这是一种纯Token的 3D 药物设计模型，它将 2D 和 3D 结构信息以及分子特性编码为离散的标记。Token-Mol 基于 Transformer 解码器构建并使用因果掩蔽进行训练，引入了专为回归任务量身定制的高斯交叉熵损失函数，从而在多个下游应用程序中实现卓越的性能。该模型超越了现有方法，在两个数据集中将分子构象生成提高了 10% 和 20% 以上，同时在属性预测方面比纯标记模型高出 30%。在基于口袋的分子生成中，它分别将药物相似性和合成可及性提高了约 11% 和 14%。值得注意的是，Token-Mol 的运行速度是专家扩散模型的 35 倍。在现实世界的验证中，它可以提高成功率，并且与强化学习相结合，进一步优化亲和力和药物相似性，从而推进人工智能驱动的药物发现。

Fig. 1 Fig. 1

核心图：a. 数据处理流程。b. Token-Mol 的工作流程。c. GCE 损失函数中的权重分配，其中 GT 表示真实标签 token（ground truth token）。d. 基于结合口袋的分子生成模型中的口袋编码器与融合模块。

论文六：数据稀缺条件下基于大模型的聚合物性质学习

论文题目：Harnessing large language models for data-scarce learning of polymer properties

数据稀缺条件下基于大模型的聚合物性质学习

论文来源：Nature Computational Science

论文链接：https://www.nature.com/articles/s43588-025-00768-y

代码链接：https://github.com/ningliu-iga/TrinityLLM

一作单位：Global Engineering and Materials Inc., USA

摘要：大语言模型（LLM）有望成为用于评估、分析和设计的快速、准确的材料建模范例。它们大量的可训练参数需要大量数据来实现准确性并减少过度拟合。然而，实验测量通常有限且成本高昂，无法获得足够的数量进行微调。为此，我们在这里提出了一个基于物理的训练框架，用于解决数据稀缺的核心问题。核心推动器是一个基于物理的建模框架，它生成大量合成数据，以在微调之前将 LLM 与物理上一致的初始状态对齐。我们的框架采用两阶段训练策略：利用数量大但准确度较低的合成数据进行监督预训练，并使用有限的实验数据微调第一阶段模型。我们通过学习聚合物可燃性指标的视角，在锥形量热仪数据稀疏的情况下，通过学习聚合物可燃性指标的视角，监督预训练对于获得准确的微调 LLM 至关重要。

核心图：数据稀缺条件下基于大模型的聚合物性质学习的核心流程。第 1 至 6 步展示了在数据有限的情况下，采用 “三位一体”（trinity）方法训练大型语言模型（LLMs）的流程，与之对比的是用灰色突出显示的当前常用方法。

论文七：基于大语言模型推动传染病实时预测研究发展

论文题目：Advancing real-time infectious disease forecasting using large language models

基于大语言模型推动传染病实时预测研究发展

论文来源：Nature Computational Science

论文链接：https://www.nature.com/articles/s43588-025-00798-6

代码链接：https://github.com/miemieyanga/PandemicLLM

一作单位：Johns Hopkins University, USA

摘要：由于影响因素的复杂性，预测正在进行的疾病爆发的短期传播构成了挑战，其中一些因素可以通过相互关联的多模态变量以及公共政策和人类行为的交叉点来表征。在这里，我们介绍了 PandemicLLM，这是一个具有多模态大语言模型（LLM）的框架，它将疾病传播的实时预测重新表述为文本推理问题，并能够整合实时、复杂的非数字信息。这种方法通过人工智能-人类合作提示设计和时间序列表示学习，为LLM编码多模态数据。该模型应用于 COVID-19 大流行，并经过训练以利用文本公共卫生政策、基因组监测、空间和流行病学时间序列数据，并在美国所有 50 个州进行了为期 19 个月的测试。PandemicLLM 为以异构格式合并各种与大流行相关的数据开辟了途径，并显示出与现有模型相比的性能优势。

核心图1：PandemicLLMs 的疫情数据流与处理流程概览。(a) 多模态数据洞察（Multi-modality data insights）：我们的多模态数据集整合了四类疫情相关数据源：空间数据（人口统计学与医疗保健指标）、流行病学时间序列（病例报告、住院人数和疫苗接种率）、公共卫生政策（以文本形式记录的政府干预措施）以及基因组监测数据（结合了变异株的文本描述与其流行情况的周度序列）。整个数据集包含 5200 条记录，覆盖美国 50 个州，时间跨度为 104 周。SARS-CoV-2 的系统发育树是使用 Nextstrain 生成的。(b) PandemicLLMs 的构建流程：为了预测疫情住院趋势，我们将问题形式化为一个序数分类任务。根据 CDC 指南，我们定义了五个类别：大幅下降、中度下降、稳定、中度上升、大幅上升。通过 AI–人类协作的提示设计将多模态数据转换为文本格式，PandemicLLMs 在这些提示与目标标签的基础上进行微调，以实现 1 周和 3 周的预测。我们特别强调对模型进行严格的性能评估，以验证预测的准确性与可信度。

核心图2：AI–人类协作提示设计示意图。美国 50 个州的空间数据被转化为描述性文本，以反映其排名；政策数据包含防控强度及其逐周变化；流行病学时间序列数据结合了叙事生成与表征学习；基因组监测数据则将变异株特征的文本摘要与其最新流行情况结合。蓝色箭头表示信息文本化，红色箭头表示序列表征学习。每个设计的提示长度在 296 至 322 个词之间。

大模型与生物医学：

AI + Science第二季读书会

生物医学是一个复杂且富有挑战性的领域，涉及到大量的数据处理、模式识别、理论模型建构和实验验证等问题。AI基础模型的引入，使得我们能够从前所未有的角度去观察和理解这个领域的问题，加速科学研究的步伐，提高医疗服务的效率和效果。这种交叉领域的合作，标志着我们正在向科技与生物医学深度融合的新时代迈进，对于推动科学研究、优化医疗服务、促进人类健康有着深远的影响。

集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩，华盛顿大学博士研究生屠鑫明，共同发起以“大模型与生物医学”为主题的读书会，共学共研相关文献，探讨基础模型在生物医学等科学领域的应用、影响和展望。读书会已完结，现在报名可加入社群并解锁回放视频权限。