Matter | 化学推理赋能大语言模型: 开启“策略感知”的合成规划与反应机理解析新时代

DRUGONE

研究人员提出，大语言模型不仅可以用于化学知识表达，还可以作为“化学推理引擎”，在与传统搜索算法结合后，能够模拟人类化学家的思维方式，辅助解决复杂的化学问题。

与直接生成分子结构不同，本研究将大语言模型定位为评估器，通过对化学策略的理解，引导搜索算法朝着更具化学意义的方向探索。研究人员在两个核心问题上验证了这一思想：策略感知的逆合成规划以及反应机理解析。

在逆合成任务中，该框架允许研究人员通过自然语言描述合成策略，从大量候选路径中筛选出满足条件的路线，其结果与独立化学专家的判断一致性达到 71%。在机理解析任务中，大语言模型通过评估电子推动的基本反应步骤，引导搜索找到合理的反应路径。这一研究表明，大语言模型的“策略理解能力”可以与传统计算化学工具的精确性相结合，从而形成更直观、更强大的化学推理体系。

化学推理自动化一直是化学领域的重要目标，它对于加速药物发现、合成设计以及反应机理理解具有重要意义。然而，现有计算方法通常针对单一任务开发，例如性质预测或反应路径搜索，缺乏跨层级、多步骤的推理能力。

在实际合成设计中，化学家需要同时考虑多个复杂因素，例如环结构构建的顺序、官能团引入的时机以及保护基策略等。这种多层级、多目标的决策过程，本质上依赖于经验与策略思维。

近年来，大语言模型在科学领域展现出强大的知识理解与推理能力，其表现出类似人类直觉的化学推理模式，尤其在分析反应策略与合成路径方面具有潜力。然而，这些模型在生成化学结构（如 SMILES）时仍存在局限，这限制了其直接应用。

基于此，研究人员提出一种新的范式：不再让模型生成结构，而是让其作为“策略评估者”，与传统搜索方法协同工作，从而结合推理能力与计算精度。

方法

研究人员构建了一个名为 Synthegy 的框架，其核心思想是将大语言模型嵌入到传统化学搜索流程中。

在该框架中，传统算法负责生成候选解，例如可能的合成路径或反应步骤，而大语言模型则对这些候选解进行分析与评分。输入包括目标分子以及用自然语言描述的策略约束，例如“优先在早期构建某个环结构”。模型根据这些约束评估每条路径，并给出评分及解释，从而实现路径排序与筛选。

在机理解析任务中，研究人员定义了一组通用的基本反应步骤，通过搜索这些步骤的组合来构建反应路径。大语言模型对每一步进行合理性评估，从而引导搜索逐步逼近正确机理。

图1：LLM作为化学推理引擎的整体框架与两类任务（合成规划与机理解析）。

结果

策略感知合成规划能力

研究结果表明，大语言模型已经具备对复杂合成路径进行深入分析的能力。它不仅能够理解单个反应步骤，还能够在全局层面评估整个合成策略。

在基准测试中，最先进模型能够系统分析每一步反应，并结合整体路径判断其是否符合策略要求。性能随模型规模显著提升，小模型几乎接近随机，而大模型表现出明显的推理能力。

此外，模型能力在短时间内快速提升。较新一代模型在复杂任务上的表现远超旧模型，显示出推理能力的持续进化趋势。

与人类专家的一致性

在由 36 名化学专家参与的双盲评估中，模型的判断与专家一致的比例达到约 71%。

更重要的是，在绝大多数情况下，至少一半以上的专家会与模型结论一致。这说明该系统的判断已经接近人类专家的水平。

研究还发现，资深研究人员与模型的一致性更高，说明模型在某种程度上更接近专家级思维方式。

图2：模型性能随时间提升及与专家一致性分析。

合成路线可行性评估

研究进一步测试了模型在“合成可行性评估”这一更复杂任务中的能力。

结果表明，模型能够识别高质量合成路径，例如避免不必要的保护基操作、选择更高收率的反应步骤，并有效识别低质量路径中的关键问题，如副反应风险或步骤设计不合理。

在与真实实验路线对比中，模型对已成功实施的路线给予较高评分，说明其具备一定预测能力。

图3：不同工具生成路线的可行性评分及案例分析。

反应机理解析能力

在机理解析任务中，模型通过评估“电子推动步骤”来引导搜索，从而构建完整反应路径。

结果显示，在简单反应中，模型几乎可以完美识别正确机理；在复杂反应中，性能有所下降，但仍能区分合理与不合理步骤，表现出良好的泛化能力。

此外，引入额外文本指导（例如专家描述的机理思路）可以显著提升模型表现，说明该框架具有良好的可扩展性。

图4：机理解析任务设计及模型性能评估。

讨论

本研究提出了一种新的计算化学范式：将大语言模型作为“策略推理层”，与传统算法协同工作，而非替代它们。

这一范式的核心优势在于：

一方面，大语言模型能够理解复杂的化学策略与语义信息；另一方面，传统方法提供了系统化搜索与精确计算能力。二者结合，使得系统既具备直觉推理，又保持计算严谨性。

在合成规划中，该方法允许研究人员通过自然语言表达复杂策略，从而大幅降低使用门槛，并提高路径筛选效率。在机理解析中，该方法展示了通过推理引导搜索的潜力，为自动化机理研究提供了新思路。

然而，该方法仍存在局限。例如模型可能误解输入格式、倾向于给出过于简单的解释，或者对长路径的跟踪能力不足。此外，其性能依赖于候选解的质量，因此仍需要高质量的底层搜索工具支持。

总体来看，该研究表明，大语言模型正在从“预测工具”转变为“推理工具”，并有望成为未来计算化学系统中的核心组件。

整理 | DrugOne团队

参考资料

Bran, Andres M., Theo A. Neukomm, Daniel Armstrong, Zlatko Jončev, and Philippe Schwaller. "Chemical reasoning in LLMs unlocks strategy-aware synthesis planning and reaction mechanism elucidation." Matter (2026).

内容为【DrugOne】公众号原创｜转载请注明来源

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Matter | 化学推理赋能大语言模型: 开启“策略感知”的合成规划与反应机理解析新时代

评论列表

评论