2023年1月3日,知名AI制药公司Relay Therapeutics首席数据官Pat Walters在其个人博客回顾和总结了2022年人工智能在药物发现领域的技术进展。
Walters将这些进展归纳为以下八个方面:
1.深度神经网络对QSAR更好吗?
2.深度学习方法为蛋白质配体对接提供了新方法
3.蛋白质结构预测:将AlphaFold2推向新方向
4.模型可解释性
5.量子化学方法
6.超大型化学数据库
7.主动学习
8.分子表征
1. 深度神经网络对QSAR更好吗?
QSAR描述了药物分子结构与其生物活性间的定量关系。
2022年的论文中,似乎有一种看法,即深度神经网络在QSAR建模中已经变得无处不在了。事实上,最近一期JCIM特刊的介绍中有这样的说法:"在2013年Kaggle Merck分子活性挑战赛和2015年Tox21数据挑战赛之后,DNN已经成为药物发现中QSAR应用的首选方法。"
虽然我发现DNNs在某些情况下很有用,但我不认为它们已经成为"首选方法(the method of choice)"。
2022年发表的几篇论文提供了DNN和其他方法之间有趣的比较,很难说谁是最后明显的赢家。
阿斯利康的一篇论文评估了几种机器学习方法的能力,偏最小二乘法(PLS)、随机森林回归(RF)、支持向量回归(SVR)和梯度提升树(XGBoost),以预测非加和性SAR。作者使用了Kramer以前发表的一种方法来识别具有加和性和非加和性SAR的匹配分子对,然后用这些配对来构建不同预测难度的子集。该分析考虑了四种检测方法的数据集,即LogD、DMSO中的溶解度、肝微粒体中的清除率和渗透性(未指定细胞系)。在大多数情况下,DNN在加和和非加和性子集上的表现都优于其他方法。
Simple nearest-neighbour analysis meets the accuracy of compound potency predictions using complex machine learning models https://www.nature.com/articles/s42256-022-00581-6
2022年我最喜欢的论文之一是由Eindhoven University of Technology的一个小组发表的。这篇论文的意图与上面的论文有些类似。
Tilberg等人构建了包含活性悬崖(activity cliff,即分子结构的微小差异导致活性的巨大差异的现象)的数据集,并评估了机器学习模型预测这些现实但具有挑战性的集合的活性的能力。分析包括了许多非深度学习方法,如SVM,kNN,以及集成学习模型(随机森林、LightGBM)。为了对算法和表征进行基准测试,作者将几种分子指纹与前面提到的算法相结合。此外,作者还测试了一系列深度学习方法,包括消息传递神经网络(MPNN)、图卷积神经网络(GCN)、图注意力(GAT)等。作者报告说,集成学习方法与分子指纹结合在一起,在总体数据集和活性悬崖数据集上都具有最佳性能。
Exposing the Limitations of Molecular Machine Learning with Activity Cliffs
https://pubs.acs.org/doi/10.1021/acs.jcim.2c01073
Janela等人的研究表明,简单的最近邻分析在复合效价预测的准确性可与复杂机器学习模型媲美。
Simple nearest-neighbour analysis meets the accuracy of compound potency predictions using complex machine learning models
这些论文之所以重要,有两个原因。首先,他们帮助消除了深度学习总是QSAR模型的最佳选择的看法。其次,他们引入了新的、更现实的基准数据集和策略,有望取代日常使用中的一些有缺陷的基准。
2. 深度学习方法为蛋白质配体对接提供了新方法
大多数对接程序使用基于经验或物理的评分函数来搜索预定义蛋白质区域内的结合姿势,通常由结合位点周围的框来定义。2022年出现的新一代对接程序,使用现有蛋白质-配体复合物的结构来学习配体和蛋白质结合位点之间的关系,并搜索整个蛋白质表面。从本质上讲,这同时解决了两个问题:识别结合位点并确定配体的对接姿势。
这种方法的第一个例子是麻省理工学院的EquiBind对接程序,它使用深度学习将蛋白质上的位点与配体上的对应点匹配。
EquiBind: Geometric Deep Learning for Drug Binding Structure Prediction
https://arxiv.org/abs/2202.05146
TANKBind的对接程序扩展了这种方法,该程序评估蛋白质上多个位点的对接姿势,并选择得分最高的姿势。
TANKBind: Trigonometry-Aware Neural NetworKs for Drug-Protein Binding Structure Prediction
https://www.biorxiv.org/content/10.1101/2022.06.06.495043v3
E3Bind,一种受AlphaFold2启发的对接方法,该方法利用了描述蛋白质图、配体图和蛋白质配体图的三种嵌入的组合,蛋白质配体图被迭代细化以生成对接姿势。
E3Bind: An End-to-End Equivariant Network for Protein-Ligand Docking
https://arxiv.org/abs/2210.06069
DiffDock使用扩散迭代搜索平移、旋转和扭转变化的空间。DiffDock中的搜索过程由一个新颖的置信度分数指导,该分数允许在多个姿势之间进行选择。
DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking
https://arxiv.org/abs/2210.01776
图神经网络(GNN)在药物发现的各个子领域中得到了广泛的应用。一个例子是MedusaGraph方法,它使用GNN预测蛋白质配体对接。该方法涉及两个GNN:姿势预测GNN建议可能的对接姿势,姿势选择GNN执行二分类以评估给定姿势的质量。
Predicting Protein–Ligand Docking Structure with Graph Neural Network
https://pubs.acs.org/doi/10.1021/acs.jcim.2c00127
观点
近30年来,对接一直被用于基于结构的药物设计。直到最近,对接算法的工作方式几乎没有变化。这些算法通常生成一组姿势,然后使用结合物理和经验的评分函数来评估这些姿势。最近,深度神经网络的进展开发了新的对接程序,该程序使用来自蛋白质数据库(PDB)的数据来训练能够识别结合位点并提出和评估结合姿势的功能。
虽然这些方法很强大,但它们很难进行基准测试,因为很难知道该方法是发现新的相互作用还是只是从类似的结合位点和配体传递信息。当面对以前从未见过的新型配体和结合位点时,看看这些方法是如何发挥作用的,这将是很有趣的,也有可能将这些方法与现有的基于物理和经验的方法相结合。
3. 蛋白质结构预测:将AlphaFold2推向新方向
毫无疑问,2021 年机器学习领域最引人注目的应用是AlphaFold2。
DeepMind在CASP14蛋白质结构预测挑战中独占鳌头,震惊了蛋白质结构预测(protein structure prediction,PSP)领域。在AlphaFold2原始论文发表后,该领域出现了爆炸性增长。2022年的几篇论文表明,通过修改AlphaFold2用作结构生成初始步骤的多序列比对(multi-structure alignment,MSA),可以生成多个蛋白质构象。
Prediction of multiple conformational states by combining sequence clustering with AlphaFold2
https://www.biorxiv.org/content/10.1101/2022.10.17.512570v1
本文主要讨论PSP在分子建模中的几个具体应用。
在2022年底的一篇预印本文章中,Wayment-Steele描述了一种通过序列相似性对MSA进行聚类的方法,并使用聚类来生成多种蛋白质构象状态。这种方法的一个用例,被称为AF-Cluster,可在GitHub上找到。
Prediction of multiple conformational states by combining sequence clustering with AlphaFold2
https://www.biorxiv.org/content/10.1101/2022.10.17.512570v1
虽然有几个小组已经证明了由AlphaFold2生成的alternate蛋白质构象的生物学意义,但必须做更多的工作来评估这些构象组合的能量学和相对种群。Tiwary小组最近的一篇论文通过使用ML增强的分子动力学来生成一个Boltzmann加权的蛋白质构象集合来满足这一需求。
AlphaFold2-RAVE: From sequence to Boltzmann ensemble
https://www.biorxiv.org/content/10.1101/2022.05.25.493365v2
当呈现来自CASP14的AlphaFold2结果时,计算化学家首先提出的问题之一是PSP生成的结构是否可以用于分子建模。虽然我们没有明确的答案,但一些论文提供了一些必要的第一步。
自由能量扰动(FEP)计算已经成为lead优化工作的主流。普遍的看法是,要在预测和实验的结合亲和力之间取得良好的相关性,必须有一个高分辨率的共晶体结构。Beuming和同事的一篇论文通过研究在FEP计算中用AlphaFold2结构代替X射线结构的效用来挑战这一假设。
Are Deep Learning Structural Models Sufficiently Accurate for Free-Energy Calculations? Application of FEP+ to AlphaFold2-Predicted Structures
https://doi.org/10.1021/acs.jcim.2c00796
根据上面的论文,AlphaFold2的结构在FEP计算中似乎有一定的实用性,其中分子动力学模拟允许一些侧链的重排。然而,当将AlphaFold2结构与蛋白质晶体结构进行对接比较时,Scripps的一个小组发现,AlphaFold2结构在侧链上没有必要的分辨率来进行准确的对接计算。也许并不奇怪,对接AlphaFold2结构时的成功率(17%)低于对接Holo结构的成功率(41%)。 虽然这个结果并不引人注目,但它比作者用apo x-ray结构实现的对接成功率(10%)好得多。
Evaluation of AlphaFold2 structures as docking targets
https://onlinelibrary.wiley.com/doi/full/10.1002/pro.4530
在许多治疗领域(包括肿瘤学和遗传性疾病), 了解错义突变的结构影响的能力可以促进治疗药物的设计。在过去的一两年里,人们对AlphaFold2可靠地模拟错义突变的能力有不同的看法。来自NCI的一个小组将AlphaFold2的结构与三个系统的X射线结构进行了比较,其中野生型蛋白的X射线结构是可用的,并且存在特定的结构破坏性突变。在这三种情况下,AlphaFold2预测的突变体和WT的结构相似,但未能识别结构破坏性的突变。
Can AlphaFold2 predict the impact of missense mutations on structure?
https://www.nature.com/articles/s41594-021-00714-2
这一发现与2021年Skolkovo Institute of Science and Technology的一篇论文一致,该论文发现AlphaFold2结构没有再现实验观察到的与单一突变有关的蛋白质稳定性或荧光的变化。
Using AlphaFold to predict the impact of single mutations on protein stability and function
https://www.biorxiv.org/content/10.1101/2021.09.19.460937v1
然而,一切可能并没有失去。Baker小组最近的一篇预印本提供了很有希望的证据,即RosettaFold可以预测蛋白质突变的结构影响。
Accurate Mutation Effect Prediction using RoseTTAFold
https://www.biorxiv.org/content/10.1101/2022.11.04.515218v1?rss=1
观点
2022年是PSP中AlphaFold的一年。虽然DeepMind的团队没有参加CASP15的比赛,但所有表现最好的作品都是AlphaFold2的变种。看到AlphaFold2如何被扩展并应用于药物发现中的各种问题,这一点非常好。
4. 模型可解释性
虽然机器学习模型可以有效地选择分子,但大多数模型都是以化学结构为输入并生成预测作为输出的“黑盒”。我们希望有可解释的模型来提供见解,以启发后续化合物的设计。
赛诺菲和Matthias Rarey最近发表的一篇论文广泛介绍了可解释人工智能(XAI)在lead优化数据集中的应用。文中展示了几种XAI方法,以及强调对活性至关重要的特征的热图可视化。
Interpretation of Structure−Activity Relationships in Real-World Drug Design Data Sets Using Explainable Artificial Intelligence
https://pubs.acs.org/doi/abs/10.1021/acs.jcim.1c01263
今年我最喜欢的一些工作来自于Rochester的Andrew White小组。在一篇论文中,他们使用了counterfactuals,这种技术已被用于解释几个领域的机器学习模型,包括信用风险评估。
Model agnostic generation of counterfactual explanations for molecules
https://pubs.rsc.org/en/content/articlelanding/2022/sc/d1sc05259d
在第二篇论文中,White小组使用语言模型为机器学习模型的预测创建基于文本的解释。虽然这个方法很有趣,但论文中的例子还没有达到能说服药物化学家的水平。
Explaining molecular properties with natural language
https://chemrxiv.org/engage/chemrxiv/article-details/633731d1f764e6e535093041
最后,White小组发表了一篇观点预印本,于2022年底发布,对QSAR和其他领域的可解释模型进行了全面的概述。
A Perspective On Explanations Of Molecular Prediction Models
https://chemrxiv.org/engage/chemrxiv/article-details/639222a114d92d7cd6a65e90
Shapley值已被用于评估机器学习模型中特征的贡献。Bajorath小组最近发表的两篇论文展示了这一技术如何应用于分子的机器学习。
EdgeSHAPer: Bond-centric Shapley value-based explanation method for graph neural networks
https://www.sciencedirect.com/science/article/pii/S2589004222013153
Calculation of exact Shapley values for support vector machines with Tanimoto kernel enables model interpretation
https://www.sciencedirect.com/science/article/pii/S2589004222012950
为了有效地将化学结构与ML模型预测联系起来,我们需要软件工具,使我们能够将模型预测与化学结构的映射可视化。拜尔的一篇论文描述了一个开源的工具,用于解释ML模型和可视化原子贡献。
ChemInformatics Model Explorer (CIME): exploratory analysis of chemical model explanations
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-022-00600-z
虽然模型的可解释性已经成为一些研究工作的组成部分,但我们还没有达到随时可以操作的模型。希望随着该领域的进展,我们会达到这样的程度:从可解释的模型中得到的见解将为优化提供明确的方向。
5. 量子化学方法
在过去的几年里,有几个小组开发了机器学习方法来快速重现量子化学势。虽然这些方法在科学上很有趣,但其实际应用却有些局限。来自Carnegie Mellon的Isayev小组的一个新软件包Auto3D可以改变这种情况,使学习的量子化学势非常容易使用。Auto3D接受SMILES作为输入,生成和评估3D构象的集合,并提供同位素和立体异构体的能量排名。
Auto3D: Automatic Generation of the Low-Energy 3D Structures with ANI Neural Network Potentials.
https://doi.org/10.1021/acs.jcim.2c00817.
虽然QM方法有点超出我的范围,但我很高兴看到一个能让我轻松进行关键计算的进展。
6. 超大型化学数据库
虚拟筛选中最大的游戏改变者之一是按需合成库的出现,如Enamine REAL、WuXi GalaXi、Otava CHEMryia和eMolecules eXplore。这些库由数十亿个分子组成,可以以合理的价格快速(几周)交付,使我们许多人重新思考我们的虚拟筛选方法。应用于包含数百万个分子的数据集的蛮力方法,在考虑包含数百亿个分子的库时已不再适用。
我建议那些想了解该领域概况的人观看NIH超大型化学图书馆研讨会的视频(2020年12月已召开)。
NIH Symposium on Ultra-large Chemical Libraries
https://cactus.nci.nih.gov/presentations/NIHBigDB_2020-12/NIHBigDB.html
Wendy Warr published a detailed set of notes covering the NIH symposium.
https://chemrxiv.org/engage/chemriv/article-details/60c75883bdbb89984ea3ada5
此外,这篇来自几位演讲者的合作论文涵盖了NIH研讨会上提出的许多工作,并提供了该领域的出色概述。
Exploration of Ultralarge Compound Collections for Drug Discovery
随着化学文库的规模达到数百亿,像确定两个文库中哪些分子是共同的这样的简单任务变得繁琐而耗时。与其对数十亿的产品分子进行配对比较,不如比较用于构建库的化学砌块。然而,由于多种化学途径可以导致同一组产品,因此采用一种使用适当片段策略的方法是至关重要的。
来自Matthis Rarey小组的一篇论文使用这样的碎片化策略开发了一个名为SpaceCompare的软件工具,他们随后用它来比较REAL、GalaXi和CHEMyria数据库。这项工作的一个令人惊讶的结论是三个数据库中的分子之间的重叠度非常低。任何两个数据库之间最大的重叠都不到总数的2%。
Comparison of Combinatorial Fragment Spaces and Its Application to Ultralarge Make-on-Demand Compound Catalogs
https://pubs.acs.org/doi/10.1021/acs.jcim.1c01378
在处理数十亿的分子时,看似简单的物理性质计算可能是不切实际的。Rarey小组最近发表的另一篇文章描述了一种名为SpaceProp的方法,该方法从组成的拓扑片段的属性中得出大型列举集的属性分布。
Calculating and Optimizing Physicochemical Property Distributions of Large Combinatorial Fragment Spaces
https://pubs.acs.org/doi/10.1021/acs.jcim.2c00334
在过去的五年里,我们看到商业化的分子数量从10亿增长到600多亿。为了跟上步伐,该领域需要开发新的方法,以便对这些超大型库进行基于结构或配体的搜索。2022年发表的工作是一个良好的开端,但还有很多事情要做。
7. 主动学习
主动学习是一种迭代技术,使研究人员能够有效地搜索大空间。这种方法使用机器学习模型来选择和标记数据点并探索一个特定的化学空间。在Yang, Berenger等人的早期工作中,主动学习被用来指导大型化学库的对接计算。
主动学习过程从一个初始样本开始,这个样本可以是随机选择的,也可以是通过一些其他手段,如聚类。然后对最初采样的分子子集进行对接,分子的化学结构和对接分数被用来训练机器学习模型。机器学习模型被用来为更广泛的数据库生成预测,模型预测被用来选择下一组要对接的分子。经过几次反复,主动学习过程确定了要进入下一个步骤的分子。
虽然机器学习比对接等方法快了几个数量级,但在一个有数十亿行的表格上进行推理是不难的。麻省理工学院Coley小组的这篇论文提供了一种修剪大型数据集并有效减少机器学习算法所预测的分子数量的方法。
Self-Focusing Virtual Screening with Active Design Space Pruning
https://pubs.acs.org/doi/pdf/10.1021/acs.jcim.2c00554
自由能扰动(FEP)计算已经成为计算驱动的基于结构的药物发现项目的主要支柱。虽然这些计算很强大,但它们的计算成本也很高,一次计算需要几个小时才能完成。克服这些计算限制的一种方法是使用主动学习加上FEP来搜索大型化学库。继Konze在2019年的一篇论文之后,几个小组已经探索了主动学习在自由能计算中的应用。
Chemical Space Exploration with Active Learning and Alchemical Free Energies
https://pubs.acs.org/doi/10.1021/acs.jctc.2c00752
Active Learning Guided Drug Design Lead Optimization Based on Relative Binding Free Energy Modeling
https://doi.org/10.26434/chemrxiv-2022-krs1t.
Optimizing active learning for free energy calculations
https://www.sciencedirect.com/science/article/pii/S2667318522000204
主动学习的另一个方面得到了一些关注,那就是用于选择分子的采样策略。 一些小组已经报告了指导选择的替代方法。来自Exscientia的一个小组发表了一种被称为 "覆盖率分数(Coverage Score)"的方法,它使用贝叶斯优化和信息熵来平衡主动学习过程中的探索和利用。
Coverage Score: A Model Agnostic Method to Efficiently Explore Chemical Space
https://pubs.acs.org/doi/abs/10.1021/acs.jcim.2c00258
在药物发现的早期阶段,一个挑战是根据有些嘈杂的主要检测数据决定哪些化合物需要进展。剑桥大学的一个团队发表了一种贝叶斯主动学习方法,该方法考虑了检测数据中的固有噪声。
Batched Bayesian Optimization for Drug Design in Noisy Environments
Enamine REAL、WuXi GalaXi和Otava的CHEMriya等按需合成库的出现,扩大了虚拟筛选的范围。不幸的是,即使有了廉价的云计算资源,拥有数十亿分子的虚拟筛选也是相当昂贵的。主动学习提供了一种对接超大型数据库的有效方法。此外,主动学习还可以对成千上万的分子库进行FEP计算。随着这些技术工作的进展,它们将变得普遍并被整合到实验工作流程中。
8. 分子表征
一个成功的ML工作由三个要素组成:数据、表示和算法。最近的大量工作都集中在算法上,分子表征法受到的关注有限。
在药物发现的早期应用中,分子是由指纹表征的,其中向量中的位置代表了一个特定分子特征的存在、不存在或计数。CNN和GNN的出现导致了学习分子表征的出现。虽然这些学习到的表征有可能超过指纹模型,但它们的优越性还没有被证明。正如本综述的第一部分所提到的,最近的结果表明,使用指纹表征的更传统的ML方法提供了与更复杂的技术相当的性能,有时甚至更优。
Stony Brook University的Deng和同事最近发表的一篇论文对分子表征、指纹以及基于SMILES和分子图的自我监督表征的三种主流方法进行了出色的概述。作者彻底回顾了分子表征以及在比较表征和算法时必须考虑的几个混杂因素。
Taking a Respite from Representation Learning for Molecular Property Prediction.
http://arxiv.org/abs/2209.13492
2022年的关键ML进展之一是大型语言模型(LLMs)的出现。像ChatGPT这样的软件工具的病毒性的地位将大型语言模型带入了公众的意识中。几个小组发表的论文显示了LLMs如何被用来处理SMILES字符串库,并随后产生可用于QSAR和生成模型的化学语言模型。虽然LLM表征法已被应用于分子特性预测,但其在基准上的表现并不突出。LLMs在一些有缺陷的基准上表现出与更广泛使用的技术相当的性能。LLMs是一个非常新的领域,它们在分子特性预测中的应用还处于起步阶段。我们希望LLMs的未来发展能够带来新的分子表征方法。
ChemBERTa-2: Towards Chemical Foundation Models
BARTSmiles: Generative Masked Language Models for Molecular Representations
Large-Scale Chemical Language Representations Capture Molecular Structure and Properties
Infusing Linguistic Knowledge of SMILES into Chemical Language Models
在过去的十年中,我们已经看到了几种神经网络方法在分子表征方面的出现。虽然这些方法有望提供一个额外的抽象视角,但还没有一个明确的证据表明它们比早期使用分子描述符和指纹的方法更有优势。随着这一领域的不断发展,我们希望纳入3D信息的方法能够更充分地捕捉到潜在的分子相互作用。
评论
沙发等你来抢