- 简介药物发现是一个复杂的过程,涉及多个场景和阶段,例如片段约束分子生成、苗头化合物生成和先导优化。然而,现有的分子生成模型只能处理其中的一两个场景,缺乏应对药物发现流程各个方面所需的灵活性。在本文中,我们提出了通用分子生成模型(GenMol),这是一个多功能框架,通过将离散扩散应用于基于顺序连接的片段嵌入(SAFE)分子表示来解决这些限制。GenMol 通过非自回归双向并行解码生成 SAFE 序列,从而利用不依赖于特定标记顺序的分子上下文,并提高了计算效率。此外,在离散扩散框架下,我们引入了片段重屏蔽策略,该策略通过用屏蔽标记替换片段并重新生成它们来优化分子,从而有效探索化学空间。与基于 GPT 的模型相比,GenMol 在从头生成和片段约束生成方面表现出显著优势,并在目标导向的苗头化合物生成和先导优化任务中达到了最先进的性能。这些实验结果表明,GenMol 能够应对广泛的药物发现任务,为分子设计提供了一种统一且多功能的方法。
- 图表
- 解决问题该论文旨在解决药物发现过程中多个场景和阶段(如片段约束分子生成、命中生成和先导优化)的复杂性问题。现有的分子生成模型通常只能处理其中一个或两个场景,缺乏灵活性以应对药物发现管道中的各种需求。这是否是一个新问题?是的,因为尽管已有研究试图解决特定的药物发现任务,但尚未有一个统一的框架能够灵活应对多种药物发现任务。
- 关键思路关键思路在于引入了一种名为Generalist Molecular generative model (GenMol)的通用框架,通过应用离散扩散到Sequential Attachment-based Fragment Embedding (SAFE)分子表示中,实现了非自回归双向并行解码,从而生成SAFE序列。这一方法不仅提高了计算效率,还允许利用不依赖于特定标记顺序的分子上下文。此外,通过引入片段重屏蔽策略,优化分子时可以替换片段并重新生成,从而有效地探索化学空间。相比现有研究,GenMol提供了一个更灵活和高效的解决方案,适用于多种药物发现任务。
- 其它亮点论文的其他亮点包括:1. GenMol在从头生成和片段约束生成方面显著优于基于GPT的模型;2. 在目标导向的命中生成和先导优化中达到了最先进的性能;3. 实验设计涵盖了广泛的药物发现任务,验证了GenMol的多功能性和有效性;4. 研究使用了公开可用的数据集,并且提供了开源代码,方便后续研究者进行复现和改进。未来值得深入研究的方向包括进一步优化模型参数,以及将其应用于更多实际药物发现项目中。
- 最近在这个领域,还有其他相关研究值得关注,例如:1.《MolecularRNN: Generating realistic molecular graphs with optimized properties using reinforcement learning》;2.《GraphAF: a Flow-based Autoregressive Model for Molecular Graph Generation》;3.《Junction Tree Variational Autoencoder for Molecular Graph Generation》。这些研究都在尝试通过不同的生成模型和技术来改进分子设计和药物发现过程。
沙发等你来抢
去评论
评论
沙发等你来抢