【论文标题】DENVIS: scalable and high-throughput virtual screening using graph neural networks with atomic and surface protein pocket features
【作者团队】Agamemnon Krasoulis, Nick Antonopoulos, Vassilis Pitsikalis, Stavros Theodorakis
【发表时间】2022/08/18
【机 构】Deeplab
【论文链接】https://doi.org/10.1101/2022.03.17.484710
虚拟筛选的计算方法可以通过识别特定靶点的潜在hits而大大加速早期药物发现,传统的对接算法使用基于物理学的模拟来应对这一挑战,计算输入的蛋白质-配体对的结合方向和相应的结合亲和力分数。近年来,机器学习架构已经显示出超越传统对接算法的潜力。然而,大多数的算法仍然依赖于通过对接模拟来估计的蛋白质-配体复合物结合pose,这导致了整个虚拟筛选过程的严重缓慢。一系列在氨基酸序列水平上处理靶点信息的算法避免了这一问题,但代价是要在更高的表征水平上处理蛋白质数据。本文介绍了深度神经虚拟筛选DENVIS,这是一个使用预训练的图神经网络(GNN)进行虚拟筛选的端到端流程。通过在两个基准数据库上的实验,本文的方法与一些基于对接、基于机器学习和基于对接/机器学习的混合算法相比,表现得很有竞争力。通过避免中间对接步骤,DENVIS比基于对接和混合模型的筛选时间快几个数量级(即更高的产量)。与筛选时间相当的基于氨基酸序列的机器学习模型相比,DENVIS的性能显著提高。本文的方法的一些关键要素包括使用原子和表面特征的组合进行蛋白质口袋建模,使用模型集成,以及在模型训练期间通过人工负向采样进行数据增强。总之,DENVIS达到了与最先进的虚拟筛选技术相媲美的性能,可以利用最少的计算资源将虚筛扩展到数十亿分子。
上图展示了DENVIS示意图。
配体和蛋白质口袋的特征最初被送入专用的GNNs。每个GNN产生一个图输出,通过平均集成结果转换为一个矢量表征。然后,这两个向量通过外积运算结合起来,得到一个蛋白质口袋-配体对的表示。这个最终的表示被送入一个多输出的线性回归层以估计多个结合亲和力指标。当网络在PDBbind通用集上训练时,这些指标是Kd、Ki和IC50,而当它在PDBbind精炼集上训练时,Kd和Ki。b图展示两种类型的表征和相关的GNN模型被用于蛋白质口袋数据处理:原子级和表面级。对于配体,使用的是原子级的方法。
c图展示了用于病毒筛选的集成策略。本文用不同的随机种子对原子级和表面级方法训练五个模型实例。为了估计每种类型网络的最终结合亲和力预测得分,作者计算了五个实例的平均得分。最终的结合亲和力预测分数是用原子和表面水平的集成模型分数的加权平均数计算的。
上图展示了消融实验的结果。
本文使用TOUGH-M1数据集来预训练三个独立的GNN。1)原子级蛋白质口袋GNN;2)表面级蛋白质口袋GNN;和3)原子级配体GNN。然后,这三个预训练的网络被用来初始化结合亲和力网络的各个组成部分的权重。预训练过程对三个GNN中的每一个都是独立进行的。本文采用网络预训练的动机源于这样一个事实,即训练集(即PDBbind)中的标记样本数量相当有限(大约几千个),预训练的目标是为结合亲和力网络训练获得一个良好的模型参数初始化,可用于后续微调。
对于负采样增强方法,本文假设训练集中的不同蛋白质-配体复合物的口袋和配体不结合。在实践中,这一假设可能被违反,尽管概率非常小。然而很明显,负面抽样对性能的好处在很大程度上超过了在假阴性的情况下可能引入的小标签噪音的潜在负面影响。值得注意的是,作者在每次训练时都会产生一组不同的人工负样本,同时保持正/负样本的比例固定,因此在训练期间产生了数百万的负样本。尽管其他方法有可能从使用负向取样增强中受益,但在基于对接的方法中部署这种技术可能是不可行的,因为在这种情况下,所有蛋白质-配体负结合对的结合pose都需要通过对接模拟来估计。
上图展示了虚筛的benchmark结果并展示了本文方法相对于其他机器学习/对接方法的领先。
本文将结合亲和力网络用来进行虚拟筛选。首先,对于两种网络类型(原子级和表面级)中的每一种,分别对输入蛋白质-配体对运行推理,并计算不同模型的未加权平均分数,多次运行集成并计算出原子级和表面级模型的加权平均分数;随后按每个靶点的结合亲和力预测顺序递减排列配体;最后每个靶点配体的排名被用来计算三种性能分数。
创新点
- 开发一个端到端的虚拟筛选系统,具有高度竞争性的性能和极快的筛选时间。
- 融合多种蛋白质口袋表征(原子和三维表面),并结合集成建模。
- 在结合亲和力网络训练过程中采用人工负采样的数据增强方案。
- 通过采用跨数据库验证策略和使用适当的基线模型,对用于虚拟筛选的各种基于对接、基于机器学习和基于对接/机器学习的混合算法进行了系统的基准测试
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢