【论文标题】PanGu Drug Model: Learn a Molecule Like a Human

【作者团队】Xinyuan Lin, Chi Xu, Zhaoping Xiong, Xinfeng Zhang, Ningxi Ni, Bolin Ni, Jianlong Chang, Ruiqing Pan, Zidong Wang, Fan Yu, Qi Tian, Hualiang Jiang, Mingyue Zheng, Nan Qiao

【发表时间】2022/04/01

【机 构】华为、中科院上海药物研究所

【论文链接】https://doi.org/10.1101/2022.03.31.485886

【工具链接】http://www.pangu-drug.com/

像GPT-3和PanGu-α这样的大规模预训练模型在许多下游任务中显示出惊人的性能,这使得人工智能对工业用户更加友好。深度学习已被公认为是最有前途的制药技术,一个强大的分子预训练模型可以为研究人员节省大量的时间。在化学课上,学生要学习两种分子表征,即分子式和结构式,并学会将它们从一种方式转化为另一种方式。受此启发,本文开发了一个新的深度学习架构,使用图到序列的不对称条件变分自动编码器,称为PanGu药物模型,它可以从两个表征中适当地描述分子,并提高下游药物发现任务的性能。在用17亿个小分子进行预训练后,本文提出的模型在20个药物发现任务中取得了最先进的结果,如分子性质预测(包括预测ADMET属性、化合物-靶点相互作用、药物-药物相互作用和化学反应产量),分子生成和分子优化。PanGu分子生成器生成了一个新的药物筛选库,其中有1亿个类似药物的小分子,其新颖度为99.68%,它可以有效地生成与给定分布具有相似理化性质的新化合物,这个库可以用来补充现有的化合物数据库。此外,PanGu分子优化器可以优化起始分子的化学结构,改善特定的分子特性。

上图展示了PanGu训练和PanGu应用于各种AI药物筛选任务的过程。上半部分是PanGu的条件变分自动编码器结构,用17亿个小分子的化学结构进行预训练。下半部分为人工智能药物筛选流程,由化合物-蛋白质相互作用预测、分子特性预测、类药分子优化和库生成等人工智能任务组成,显示了从初始分子数据库到HIT候选库、lead候选库和最终筛选输出文库的分子筛选过程。

上图展示了盘古的具体模型架构,一个基于cVAE 的 graph2seq模型。模型输入为 2D 无向循环图,获得编码器的隐空间,然后将它们解码为基于文本表征。值得注意的是,这里将SELFIES 作为解码器输出,而不是 SMILES,因为输出化学物质的有效性几乎 100%。

编码器的隐空间可用于无监督表征和监督学习任务。在盘古的编码器部分,Transformer卷积层用于聚合节点表示与其邻居,并使用mean-and-max函数将节点表征聚合为固定大小的图表示。与传统的 VAE 不同,本文为盘古设计了一个分层的潜在空间,它实现了 ECFP 的主要思想,即在多个半径尺度上描述一个分子。本文将多个中间图表示连接起来,将不同数量的 TransformerConv 层传递到一个矩阵中,作为分子的最终图表示,用作 VAE 的潜在空间,即所谓的分层潜在空间。

对于解码器部分,Transformer式解码器采用将分层的隐空间解压缩为SELFIES,解码器可以在给定的感兴趣分子特性的指导下以 cVAE 方式生成化学物质,例如分子量、logP、SA 分数和药物相似性的定量估计 (QED)。分子特性直接并入解码器。。

将预训练的盘古应用于特定的监督学习任务有两种方法:1)盘古的微调,通过直接将盘古的编码器与预测器集成,使编码器更好地捕捉任务的内在模式;2)使用盘古指纹,它是潜在空间和cVAE的条件向量的组合,可以用作分子的一种表征(固定大小,类似ECFP)。在使用盘古指纹时,可以使用一个简单的多层感知器(MLP)作为预测器,它接受一个向量作为分子输入,并且预训练的盘古骨干的参数在训练期间保持不变。

 

分子性质预测部分

上图展示了盘古模型,盘古指纹在moleculenet上的11个任务的评价结果,主要对比基线为Grover(GROVER 使用了 RDKit 获得的 200 维 2D 特征来实现有竞争力的性能,而盘古没有)和ECFP6。

  • 模型结果显示表明,微调后的盘古在所有属性预测任务中都优于现有的深度学习模型,在性能上具有更好的平均或更低的标准差。值得一提的是,本文发现盘古在较小数据的任务上表现出更好的改进。
  • 盘古指纹的结果显示它在所有任务上都优于 ECFP。令人惊讶的是,盘古指纹比几个深度学习模型获得了更好的结果,特别是在以下 7 个任务中:BACE、BBBP、Tox21、ToxCast、FreeSolv、ESOL 和 QM7。在 BACE 和 ESOL 的任务中,盘古指纹甚至超越了 GROVER,排名第二,仅次于经过微调的盘古。

分子预测任务的结果证实了盘古在微调模型和指纹方面的表达能力,这表明盘古可以在药物筛选过程中提供更有效的指导。值得注意的是,除了对 ECFP 的巨大改进外,使用盘古指纹进行预测相比微调策略可以大大降低计算开销,在大多数分子相关预测的情况下,它可以被认为是 ECFP 的替代方案。

化合物-蛋白质相互作用部分

 CPI的预测是药物筛选的第一步,上图展示了在benchmark人类数据集上的评估结果。对比基线模型包括TransformerCPI 、 GraphDTA 、 GCN, CPI-GNN和机器学习方法KNN、L2-logistic (L2) 和随机森林。总体结果显示盘古指纹在 ROC-AUC、精确率、召回率和 PRC 中均排名第一,优于排名第二的 TransformerCPI。这表明盘古指纹除了在预测分子性质方面具有良好的性能外,在与蛋白结合预测中也可以提供有效的信息。

大规模生成数据库部分

基于深度生成模型的虚拟化合物可以对已成药化学空间进行补充,通过模型学习数据的内部分布,然后对学习到的分布进行采样样,得到新的样本。结果表明,盘古的有效性接近100%(1亿分子中只有1198个无效),唯一性99.95%,新颖性99.68%。

上图比较了生成的分子与公共数据库之间的化学性质分布。生成的分子显示出与公共数据库相似的模式,其中与 ZINC 最相似,因为它占据了数据集的 85%。t-SNE结果表明,盘古可以很好地在给定的化学空间内生成分子,但仍然具有很高的新颖性。这表明盘古具有很好的探索能力,可以在特定的化学空间内进行搜索,而不是简单地记住训练数据。、

约束分子优化部分

新药开发通常从某些已知分子开始,盘古可以合理地假设隐空间z包含分子结构信息和条件向量c控制分子特性,优化hits候选分子以进一步改善特定性质,同时保持与原始分子的化学相似性。

上图展示了四个具有代表性的案例,其中两个案例与起始分子高度相似,另外两个案例具有较高的目标性质优化。

  • 第一个a案例的相似度为 0.8462,惩罚后的 logP 提高了 2.542。比较优化前后,本文可以发现盘古去除了两个羟基(OH),这与本文的化学理解一致。
  • 第二个b案例,盘古用氮杂环胺将某个侧链替换为五元环,从而将目标属性提高了 1.574。
  • 第三个c是属性增加4.270,相似度0.4019的案例。盘古主要优化了它的邻环,并去除羟基。
  • 第四个d是6.829的大幅增长,相似度为0.3725的案例,相似度是最低的。盘古将与五元环相邻的带有羟基的七元环变成了苯环,而另一个七元环变成了六元环,上面的羟基也被去掉了,侧链和咪唑保持不变。

药物-药物相互作用预测

药物-药物相互作用 (DDI) 可以定义为药物之间的相互作用,阻止药物按预期发挥作用,包括一些未知的药物不良事件 (ADEs) 机制。该任务的数据集包括 192,284 个 DDI 和 86 个 DDI 类型,分别具有 115,446、38,419 和 38,419 个 DDI 的预处理训练、验证和测试集。药物-药物相互作用的预测是一项多分类任务,输入两种药物的化学结构并输出 DDI 类型。盘古指纹用于代表每个分子。首先,通过相同的前馈网络投射 DDI 对的分子指纹,并按元素求和以获得 DDI 对的表示,然后它通过另一个预测器的前馈网络来获得每个 DDI 类型的概率作为输出。结果表明,盘古指纹获得的准确率为 0.957,高于 X-Mol 和 DeepDDI 分别获得的 0.952 和 0.924 的准确率。

化学反应产率预测部分

该任务是化合物生产和药物合成领域必不可少的计算任务,应考虑参与或影响化学反应的碱基、配体、芳基卤化物和添加剂化合物。该任务的数据集包含 3,956 个化学反应和相应的产量值,盘古指纹用于表示化学反应的四个部分——反应物、反应环境、催化剂和其他参与反应的成分。一个反应的四个指纹被连接起来并用于通过前馈预测器网络进行预测。产出是产量价值。数据集以 7:3 的比例分为训练数据和测试数据,并且像以前的研究一样采用了10倍交叉验证,并报告了RMSE的平均值。结果,盘古指纹获得了 5.82 的平均 RMSE,显着低于 X-Mol 和随机森林分别报告的 6.29 和 7.80 的RMSE。

 

创新点

  1. 本文的预训练数据集是最大的,覆盖了多个公共数据源。
  2. 建模思想MSFT(Molecular Structure Formulating Transformation)是通过cVAE架构实现的,将小分子的图转换为相应的公式串,避免了graph2graph模型中存在的图生成困难,并且可以在训练过程中提供比seq2seq模型更多的信息。
  3. 分层隐空间的设计进一步提高了盘古在微调和指纹识别方面的表现力。
  4. 盘古的新颖网络架构易于训练,并实现了仅更新一个模型架构但有利于药物发现任务的所有步骤的可能性,
  5. 随着人工智能药物发现逐渐形成新趋势,机器学习和数据挖掘相关的关键程序可以从积累的数据中得到有效改进,盘古必将增强这些数据的能力。
  6. 除了盘古的分子性质预测部分,其新的化学空间发现和自动生成可以给药物研发科学家新的灵感和更多的有效实验可能性,本文相信盘古会成为其他新的预训练模型的基石。

内容中包含的图片若涉及版权问题,请及时与我们联系删除