EMNLP 2025 | 如何让大语言模型100%生成有效的分子？

药物发现与材料科学的核心挑战之一，是如何设计具有特定性质的新分子。大语言模型（LLM）凭借强大的上下文学习能力，为分子生成任务带来了新的可能——只需给出少量示例，模型便能根据文字描述生成对应的分子结构。

然而，现实中存在一个棘手的问题：分子的文本表示（如SMILES）有严格的语法规则，LLM在生成时极易产生无效字符串，导致无法解码为真实化学结构。南洋理工大学、湖南大学等高校的研究团队提出跨化学语言框架SmiSelf，成功解决了这一痛点，让大语言模型在保证100%生成有效分子的同时，保留分子特性并维持甚至提升其他指标表现，为大语言模型在生物医药领域的实际应用拓宽了道路。相关研究成果发表于EMNLP 2025 Main。

核心方法：三步探索，终提SmiSelf框架

问题一：让LLM改用SELFIES，能保证100%有效吗？

SELFIES的设计保证了其字母表里任意符号组合都对应一个合法分子，即便随机删除、添加或替换SELFIES字符中的符号，其对应的分子仍然有效。研究团队据此提出了“无效SELFIES编辑”方案：直接让LLM生成SELFIES，再过滤掉其非字母表符号。

结论：有效性有保证，但性能显著下滑。实验表明，LLM在SELFIES表示下的表现全面劣于SMILES。原因之一在于SMILES出现更早、在预训练语料中占据绝对主导地位，LLM对其更为熟悉。SMILES仍是LLM分子生成的最佳表示。

问题二：让LLM自行修正无效SMILES，效果如何？

研究团队设计了一套迭代修正流程：将无效SMILES连同分子描述一起输入LLM，要求其输出修正版本，再用化学工具RDKit验证，循环往复直至生成合法结构。

结论：LLM有一定修正能力，但代价高昂。修正后有效性确有提升，但BLEU等相似度指标明显下降——分子虽然合法了，却与目标描述更加偏离。不同模型和不同错误类型之间的修正率差异也相当显著。

问题三：如何同时保证100%有效性，又不损失其他性能？

研究团队提出了跨化学语言转换框架SmiSelf，其核心思路是：借助SELFIES的合法性保障机制，对LLM生成的无效SMILES进行后处理修正。其工作流程为：

SMILES解析：设计专门的解析器读取无效SMILES，依据预定义规则构建语法上合法的分子图；
图→SELFIES转换：按照SELFIES语法规则，将分子图转为SELFIES字符串；
SELFIES→图转换：SELFIES在重建分子图时，会自动根据约束规则修正化学错误，确保语义上合法；
图→SMILES输出：将修正后的分子图转回标准SMILES字符串。

通过这一流程，SmiSelf同时消除了原始SMILES中的语法错误和语义错误，从而保证100%有效性。

实验结果：SmiSelf表现卓越，实现有效性与性能的双重最优

任务一：基于文本的分子生成

SmiSelf在实现100%有效性的同时，EM和FCD指标均有改善，其他指标仅有轻微波动——远优于LLM自修正和无效SELFIES编辑方案。

任务二：特定类别的分子生成

在三个类别的分子生成实验中，SmiSelf对所有类别均实现了100%有效性以及其他指标的全面提升，类别归属率（Membership）的大幅跃升充分表明LLM即便输出了无效的SMILES，其内容仍保留了目标类别的分子特征，SmiSelf通过修正将这些潜在信息成功转化为合法分子。

与现有方案相比，SmiSelf具有明显优势：

约束解码（生成时修正）：有效性提升有限，且严重压缩搜索空间，其他指标下降明显；
训练生成模型（后处理修正）：需要成对的无效/有效分子作为训练数据，且无法保证100%修正；
SmiSelf（后处理修正）：无需任何训练数据，计算开销极小，100%保证有效性，主要指标仅有轻微波动。

总结讨论

本文系统回答了如何让LLM生成合法的分子这一关键问题，提出的SmiSelf框架：

•无需修改模型架构或进行微调；

•与所有基于SMILES的生成模型兼容；

•在保证有效性的同时，最大程度保留了分子特征；

•有效拓展了LLM在生物医学与药物发现领域的实际应用边界。

参考资料

Tao, Wen, et al. "How to Make Large Language Models Generate 100% Valid Molecules?." Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. 2025.
https://aclanthology.org/2025.emnlp-main.1350/

💻 代码：

https://github.com/wentao228/SmiSelf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

EMNLP 2025 | 如何让大语言模型100%生成有效的分子？

评论列表

评论