论文链接:https://www.nature.com/articles/s42256-022-00557-6.pdf

湖南大学的研究者们提出了全球首个分子图像的无监督学习框架 ImageMol,利用大规模无标签分子图像数据进行无监督预训练,为分子性质与药物靶点理解提供了新范式,证明了分子图像在智能药物研发领域具有巨大的潜力。该成果以 “Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework” 为题发表于国际顶级期刊《Nature Machine Intelligence》。此次计算机视觉与分子领域交叉取得的成功展示了利用计算机视觉技术理解分子性质与药物靶点机制的巨大潜力,并为分子领域的研究提供了新的机遇。

ImageMol 的整体架构如下图所示,总共分为三部分:

(1) 设计一个分子编码器 ResNet18(浅蓝色),能够从约 1000 万张分子图像中提取潜在特征 (a) 。

(2)考虑分子图像中的化学知识和结构信息,利用五个预训练策略(MG3C、MRD、JPP、MCL、MIR)来优化分子编码器的潜在表示 (b) 。具体来说为:

① MG3C(Muti-granularity chemical clusters classification 多粒度化学簇分类):其中的结构分类器 Structure classifier(深蓝色)用于预测分子图像中的化学结构信息;

② MRD(Molecular rationality discrimination 分子合理性判别器):其中的合理性分类器 Rationality classifier(绿色),它用于区分合理与不合理的分子;

③ JPP(Jigsaw puzzle predicition 拼图预测):其中的拼图分类器 Jigsaw classifier(浅灰色)用于预测分子的合理排列;

④ MCL(MASK-based contrastive learning 基于 MASK 的对比学习):其中的对比分类器 Contrastive classifier(深灰色)用于最大化原始图像和 mask 图像之间的相似性;

⑤ MIR(Molecular image reconstruction 分子图像重建):其中的生成器 Generator(黄色)用于将潜在特征恢复分子图像,判别器 Discriminator(紫色)用于区分真实图像和生成器生成的假的分子图像。

(3)在下游任务中对预处理的分子编码器进行微调,以进一步提高模型性能 (c) 。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除