药物发现与材料科学的核心挑战之一,是如何设计具有特定性质的新分子。大语言模型(LLM)凭借强大的上下文学习能力,为分子生成任务带来了新的可能——只需给出少量示例,模型便能根据文字描述生成对应的分子结构。


然而,现实中存在一个棘手的问题:分子的文本表示(如SMILES)有严格的语法规则,LLM在生成时极易产生无效字符串,导致无法解码为真实化学结构。南洋理工大学、湖南大学等高校的研究团队提出跨化学语言框架SmiSelf,成功解决了这一痛点,让大语言模型在保证100%生成有效分子的同时,保留分子特性并维持甚至提升其他指标表现,为大语言模型在生物医药领域的实际应用拓宽了道路。相关研究成果发表于EMNLP 2025 Main。



核心方法:三步探索,终提SmiSelf框架

问题一:让LLM改用SELFIES,能保证100%有效吗?

SELFIES的设计保证了其字母表里任意符号组合都对应一个合法分子,即便随机删除、添加或替换SELFIES字符中的符号,其对应的分子仍然有效。研究团队据此提出了“无效SELFIES编辑”方案:直接让LLM生成SELFIES,再过滤掉其非字母表符号。


结论:有效性有保证,但性能显著下滑。实验表明,LLM在SELFIES表示下的表现全面劣于SMILES。原因之一在于SMILES出现更早、在预训练语料中占据绝对主导地位,LLM对其更为熟悉。SMILES仍是LLM分子生成的最佳表示。


问题二:让LLM自行修正无效SMILES,效果如何?

研究团队设计了一套迭代修正流程:将无效SMILES连同分子描述一起输入LLM,要求其输出修正版本,再用化学工具RDKit验证,循环往复直至生成合法结构。


结论:LLM有一定修正能力,但代价高昂。修正后有效性确有提升,但BLEU等相似度指标明显下降——分子虽然合法了,却与目标描述更加偏离。不同模型和不同错误类型之间的修正率差异也相当显著。

问题三:如何同时保证100%有效性,又不损失其他性能?

研究团队提出了跨化学语言转换框架SmiSelf,其核心思路是:借助SELFIES的合法性保障机制,对LLM生成的无效SMILES进行后处理修正。其工作流程为:

  1. SMILES解析:设计专门的解析器读取无效SMILES,依据预定义规则构建语法上合法的分子图;

  2. 图→SELFIES转换:按照SELFIES语法规则,将分子图转为SELFIES字符串;

  3. SELFIES→图转换:SELFIES在重建分子图时,会自动根据约束规则修正化学错误,确保语义上合法;

  4. 图→SMILES输出:将修正后的分子图转回标准SMILES字符串。

通过这一流程,SmiSelf同时消除了原始SMILES中的语法错误和语义错误,从而保证100%有效性。


实验结果:SmiSelf表现卓越,实现有效性与性能的双重最优

任务一:基于文本的分子生成

SmiSelf在实现100%有效性的同时,EM和FCD指标均有改善,其他指标仅有轻微波动——远优于LLM自修正和无效SELFIES编辑方案。


任务二:特定类别的分子生成

在三个类别的分子生成实验中,SmiSelf对所有类别均实现了100%有效性以及其他指标的全面提升,类别归属率(Membership)的大幅跃升充分表明LLM即便输出了无效的SMILES,其内容仍保留了目标类别的分子特征,SmiSelf通过修正将这些潜在信息成功转化为合法分子。


与现有方案相比,SmiSelf具有明显优势:

  • 约束解码(生成时修正):有效性提升有限,且严重压缩搜索空间,其他指标下降明显;

  • 训练生成模型(后处理修正):需要成对的无效/有效分子作为训练数据,且无法保证100%修正;

  • SmiSelf(后处理修正):无需任何训练数据,计算开销极小,100%保证有效性,主要指标仅有轻微波动。


总结讨论

本文系统回答了如何让LLM生成合法的分子这一关键问题,提出的SmiSelf框架:

•无需修改模型架构或进行微调;

•与所有基于SMILES的生成模型兼容;

•在保证有效性的同时,最大程度保留了分子特征;

•有效拓展了LLM在生物医学与药物发现领域的实际应用边界。


参考资料

  • Tao, Wen, et al. "How to Make Large Language Models Generate 100% Valid Molecules?." Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. 2025.
  • https://aclanthology.org/2025.emnlp-main.1350/

💻 代码:

https://github.com/wentao228/SmiSelf


内容中包含的图片若涉及版权问题,请及时与我们联系删除