
计算机辅助药物发现已经存在了几十年,尽管在过去的几年里,学术界和制药行业都出现了向拥抱计算技术的结构性转变。这种转变在很大程度上是由大量关于配体特性、与治疗靶点结合及其3D结构的数据、丰富的计算能力以及数十亿类似药物的小分子按需虚拟文库的出现所决定的。要充分利用这些资源,需要快速的计算方法来进行有效的配体筛选。这包括基于结构的千兆级化学空间的虚拟筛选,通过快速迭代筛选方法进一步促进。高度协同的是深度学习预测配体性质和目标活动的发展,而不是受体结构。在这里,我们回顾了配体发现技术的最新进展,它们重塑药物发现和开发整个过程的潜力,以及它们遇到的挑战。我们还讨论了如何快速识别高度多样化,强效,靶向选择性和药物样配体的蛋白质靶标可以使药物发现过程民主化,为更安全,更有效的小分子治疗的成本效益发展提供新的机会。尽管基础生命科学和生物技术取得了惊人的进展,但药物发现和开发仍然缓慢而昂贵,制造一种小分子药物平均需要大约15年时间和大约20亿美元。尽管人们普遍认为临床研究是每种药物开发中最昂贵的部分,但最节省时间和成本的机会存在于早期发现和临床前阶段。除了主要的公共资金外,临床前工作本身占制药费用的43%以上,这是由于从目标选择到命中识别和先导优化到临床候选药物选择的每一步都有很高的损耗率。此外,临床试验的高失败率(目前为90%)2很大程度上是由于早期发现的问题,如靶标验证不足或配体特性不理想。在DDD的早期阶段,寻找快速和可获得的方法来发现更多样化的高质量化学探针、命中点和先导物,具有最佳的吸收、分布、代谢、排泄和毒理学(ADMET)和药代动力学(PK)特征,将改善临床前和临床研究的结果,并促进更有效、可获得和更安全的药物。计算机辅助药物发现的概念是在20世纪70年代提出的,1981年由《财富》杂志推广开来,此后经历了炒作和幻灭的几个周期。在这条道路上已经有了一些成功的故事,总的来说,计算机辅助方法已经成为药物发现过程中不可缺少的一部分。然而,在过去的几年里,一些科学和技术的突破导致了一种结构性的转变,即在学术界和工业界都将计算方法作为药物发现的关键驱动力。制药和生物技术公司正在扩大他们的计算药物发现工作或雇用他们的第一批计算化学家。过去几年,许多新兴和成熟的药物研发公司已经筹集了数十亿美元的资金,其商业模式严重依赖于基于先进物理的分子建模与深度学习(DL)和人工智能(AI)的结合。虽然现在期望通过最新的计算驱动的发现努力获得批准的药物还为时过早,但它们正在产生越来越多的临床候选药物,一些活动特别声称从靶点到先导时间低至1 - 2个月,或靶点到临床时间低于1年。这些是计算方法在药物发现中的作用发生重大转变的迹象,还是只是另一轮炒作周期?让我们来看看定义最近变化的关键因素(图1)。首先,结构革命——从晶体学的自动化到微晶体学,以及最近的低温电子显微镜技术——使得揭示大多数临床相关靶点的3D结构成为可能,这些靶点通常处于与其生物功能相关的状态或分子复合物中。尤其令人印象深刻的是最近G蛋白偶联受体(gpcr)和其他膜蛋白的结构转变,介导超过50%的药物作用,为配体筛选和导联优化提供了3D模板。第二个因素是类似药物的化学空间迅速而显著地扩大,很容易发现hit和lead。就在几年前,这个空间仅限于来自供应商和制药公司内部筛选库的数百万种货架上的化合物。现在,筛选可以用超大的虚拟文库和类药物化合物的化学空间来完成,这些化合物可以很容易地按需制造,快速增长超过数十亿种化合物,甚至更大的生成空间具有理论上预测的可合成性(框1)。第三个因素涉及新兴的计算方法,这些方法努力充分利用丰富的3D结构和配体数据。由广泛可用的云和图形处理单元(GPU)计算资源提供支持,以大规模支持这些方法。这包括基于结构的超大型文库虚拟筛选,使用加速筛选方法和模块化筛选方法,以及最近增长的数据驱动机器学习(ML)和深度学习方法,用于预测ADMET和PK的性质和活性。虽然最近的结构革命和计算硬件对药物发现的影响已经在其他地方进行了全面的回顾,但在这里,我们关注的是可获得的药物样化学空间的不断扩大,以及配体发现和优化计算方法的当前发展。我们详细介绍了在gigaspace中应用的新兴计算工具如何促进数百甚至数千种高度多样化、有效、靶向选择性和药物样配体的经济高效发现,并将其置于实验方法的背景下(表1)。尽管新计算技术的全面影响才刚刚开始影响临床发展,我们认为,它们与药物发现生态系统中的实验测试和验证的协同结合可以显着提高其生产更好治疗药物的效率。有限的筛选文库的大小和多样性长期以来一直是检测新的有效配体和整个药物发现过程的瓶颈。平均的“可负担的”高通量筛选(HTS)活动使用大约50,000-500,000个化合物的筛选库,并且在二次验证后预计仅产生少数真正的命中。这些靶点,如果有的话,通常是相当弱的,非选择性的,具有次优的ADMET和PK特性以及未知的结合模式,因此它们的发现需要多年艰苦的试错优化工作,以产生具有令人满意的效价和临床前开发的所有其他要求的先导分子。只有大型制药公司才能负担得起将HTS扩展到几百万种化合物的费用,而且它在最终成功的药物质量方面仍然没有太大的不同。同样,使用计算机筛选的虚拟库传统上仅限于供应商提供的库存化合物集合,通常包含少于1000万种独特的化合物,因此与HTS相比,规模优势是微不足道的。尽管追求对巨大的类药物化学空间(估计超过10的63次方化合物)的全面覆盖是徒劳的,但将按需文库的筛选范围扩大几个数量级,达到数十亿,以及更多以前未开发的类药物化合物,无论是物理的还是虚拟的,都有望在几个方面改变药物发现模式。首先,它可以在初始筛选中按比例增加潜在命中的数量(图2)。库中丰富的配体也增加了鉴定更有效或选择性配体以及具有更好物理化学性质的配体的机会。这已经在几个靶点的超大型虚拟筛选活动中得到了证明,揭示了亲和性通常在中纳摩尔到亚纳摩尔范围内的高效配体。其次,在相同的按需空间中获得热门类似物简化了按目录生成有意义的结构-活性关系(SAR)和进一步优化步骤,减少了精心定制合成的数量。最后,尽管文库规模很重要,但适当构建的千兆级文库可以扩大化学多样性(即使只有少数化学反应)、化学新颖性和热门产品的可专利性,因为几乎所有按需化合物以前都从未合成过。
最近已经开发了几种方法来推动HTS中库的大小限制,包括组合化学和平行分析的大规模化合物池。例如,亲和选择质谱技术可用于直接在数千种化合物池中识别粘合剂,而无需标记。dna编码文库(DELs)以及产生和筛选它们的低成本方法也得到了发展,使得在单个试管中处理多达1010种化合物成为可能。这些方法有其自身的局限性;由于del是通过连接器用独特的DNA序列标记配体而创建的,因此DNA偶联限制了文库组合组装的化学可能性。del的筛选也可能通过阻断重要的结合片段而产生大量的假阴性,更重要的是,由于DNA标签的非特异性结合而产生假阳性,因此需要对命中的化合物进行昂贵的off-DNA再合成以验证它们。为了避免这种再合成,有人建议对每个靶标使用经过DEL结果训练的ML模式,从按需化学空间预测药物样配体,。长期以来,通过快速计算方法对虚拟图书馆进行计算机筛选一直被吹捧为克服物理图书馆局限性的一种经济有效的方法。然而,直到最近,合成化学和化学信息学方法才被开发出来,突破了这些限制,并构建了探索更大化学空间的虚拟按需库,如参考文献所述。2017年,Enamine的易访问(REAL)数据库成为第一个基于稳健反应原理的商业按需库,而美国国立卫生研究院开发了综合可访问虚拟库存(SAVI),它也使用了Enamine构建块。REAL数据库使用精心挑选和优化的并行合成方案和精心挑选的库存构建块集合,从而可以保证快速(不到4周)、可靠(80%成功率)和负担得起的一组化合物的合成。在新反应和多样化构建模块的推动下,全枚举REAL数据库已从2017年的约1.7亿种化合物增长到2022年的超过55亿种化合物,并包含了流行的ZINC20虚拟筛选数据库的大部分42。REAL数据库的实际效用最近在几个主要的前瞻性筛选活动中得到了证明20,21,23,24,其中一些在相同的化学空间中进行了进一步的命中优化步骤,产生了选择性的纳摩尔甚至亚纳摩尔配体,而无需任何定制合成20,21。类似的超大型虚拟图书馆(即GalaXi (http://www.wuxiapptec.com)和CHEMriya (http://chemriya.com))也可以在商业上使用,尽管它们的合成成功率尚未公布。虚拟化学空间按需虚拟图书馆的模块化特性通过添加反应和构建块来支持进一步的增长。然而,建立、维护和搜索包含几十亿化合物的全枚举化学文库变得缓慢而不切实际。因此,这种千兆级虚拟库通常被维护为非枚举的化学空间,由一组特定的构建块和反应(或转换)定义,如参考文献38中全面回顾的那样。在制药行业,辉瑞公司的PGVL是最早发表的例子之一,它的最新版本使用了1244个反应和内部试剂来计算10的14次方个化合物。其他生物制药公司也有自己的虚拟化学空间,尽管它们的细节通常不在公共领域。在商业上可用的化学空间中,无锡的GalaXi Space(大约80亿种化合物),Otava的CHEMriya(118亿种化合物)和Enamine REAL Space(360亿种化合物)是最大和最成熟的空间。除了它们巨大的尺寸之外,这些虚拟空间非常新颖和多样化,并且彼此之间的重叠最小(小于10%)。目前,最大的商业空间Enamine REAL space是REAL数据库的扩展,它保持了相同的合成速度、速率和成本保证,涵盖了170多种反应和137,000多种构建块(框1)。这些反应大多数是双组分或三组分,但更多的四组分甚至五组分反应正在探索中,从而实现高阶组合。这个空间可以很容易地扩展到10的15次方种化合物,基于可用的反应和扩展的构建块集,例如,6.8亿个按需制造(MADE)构建块,尽管这些化合物的合成需要更多的步骤和更昂贵。为了在不完全枚举的情况下表示和导航组合化学空间,专门的化学信息学工具已经开发出来,从基于片段的化学相似性搜索48到更复杂的基于原子性质领域的3D分子相似性搜索方法,如快速等异体发现引擎(RIDE)。建立化学空间的另一种方法是根据合成可行性和化学稳定性的简单规则生成假设可合成的化合物。因此,生成的数据库(GDB)预测可以由特定数量的原子组成的化合物;例如,GDB-17含有1664亿个分子,最多由17个碳、氮、氧、硫和卤素原子组成,而由18个原子组成的GDB-18估计有1013个化合物。其他基于更狭义的化学空间定义的生成方法现在被用于基于dl的生成化学的从头配体设计(例如,参考文献50),如下所述。尽管一些商业按需化学空间(例如,Enamine REAL空间)的合成成功率已经得到了彻底的验证,但其他化学空间的合成可达性和成功率仍未公布[38]。这些是衡量按需合成实际可持续性的重要指标,因为降低的成功率或不合理的时间和成本将削弱其与定制合成相比的优势。gigascale和terrascale的化学空间,只要它们保持高度的药物相似性和多样性,有望为任何目标提供数百万个潜在的命中和数千个潜在的先导系列。此外,它们高度易于处理的稳健合成简化了最终候选药物的任何下游药物化学工作。然而,处理这样的虚拟图书馆需要新的计算方法,以满足对速度和准确性的特殊要求。它们必须足够快才能处理千兆级库。如果对接一个化合物每个CPU核心需要10秒,那么在单个CPU核心上筛选1010个化合物将需要3000多年的时间,或者以最便宜的CPU速率在计算云上花费大约100万美元。同时,千兆级筛选必须非常准确,防止假阳性命中,假阳性命中利用评分函数的漏洞和近似值有效地欺骗了评分函数。在1010复合库中,即使是百万分之一的误报率也会包含10,000个错误命中,这可能会淹没任何命中候选选择。伪影率和性质可能取决于目标和筛选算法,应在筛选和后处理中仔细处理。虽然没有一个简单的解决方案来解决这些人工产物,但一些实用且合理的成本效益补救措施包括:(1)基于两种不同评分函数的共识进行选择,(2)选择高度多样化的命中值(许多人工产物聚集到相似的化合物上),(3)对冲几个分数范围的赌注31,以及(4)手动管理任何不寻常相互作用的化合物的最终列表。最终,我们非常希望修复尽可能多的“评分函数中的漏洞”,并重新优化它们,使其在分数范围内具有高选择性,从而找到gigaspace的最高真实命中值。在筛选中错过一些命中(假阴性)是可以容忍的,因为在1010空间中有大量的潜在命中(例如,失去100万潜在命中中的50%是完全可以的),所以分数敏感性的一些折衷是可以接受的。表2总结了筛选潜在配体的蛋白质靶标的主要计算方法类型。下面,我们将讨论一些新兴技术,以及它们如何最好地适应整个DDD管道,以充分利用不断增长的按需化学空间。基于受体结构的筛选通过将虚拟文库的分子对接到受体结构中并预测其“结合分数”进行计算机筛选是一种成熟的靶向和先导发现方法,在最近的药物发现成功案例中发挥了关键作用。对接过程本身可以使用分子力学,通常在内部坐标表示中,对全柔性配体进行快速构象采样,使用经验三维形状匹配方法,或将它们结合在混合对接漏斗中。特别关注配体评分功能,该功能旨在可靠地去除非结合物,以最大限度地减少假阳性预测,这与文库规模的增长特别相关。作为D3R大挑战社区的常规工作,对基于结构的算法的性能进行了盲目评估,结果显示,最佳算法在配体位姿和结合能预测方面不断改进。多年来,许多成功的基于结构的前瞻性筛查活动的结果已经发表,涵盖了所有主要类型的靶标,最近的gpcr,如参考文献所述。,而工业上使用的则更多。通过这种筛选预测的候选配体集在实验测试中通常显示出有用的(10-40%)命中率,对许多效价在0.1-10 -μM范围内的靶标产生了新的靶标(至少对于那些已发表的靶标)。然而,进一步优化从少于1000万种化合物的标准筛选文库中获得的初始靶点,通常需要昂贵的定制类似物合成,这只在少数已发表的案例中得以实现。直接在更大的化学空间(如REAL空间)中识别命中点不仅可以带来更多更好的命中点,而且还可以支持它们的优化,因为任何命中点在相同的按需空间中都有数千个类似物和衍生物。这一优势对SARS-CoV-2主蛋白酶(Mpro)等具有挑战性的靶标尤其有用,数百种标准虚拟配体筛选(VLS)尝试都是空手而回62(见下文“体外-芯片混合方法”中关于Mpro挑战的讨论)。尽管在超大屏幕上初始命中率很低,但拥有14亿个化合物的REAL数据库的VirtualFlow24仍然在10-100µM范围内识别出命中,并通过按需合成进行优化,得到了最佳化合物Z222979552(一半最大抑制浓度(IC50) = 1.0 μM)的优质先导物。另一种基于新型Mpro结构和非共价抑制剂(Protein Data Bank (PDB) ID: 6W63)的超大屏幕筛选了2.35亿种化合物,也产生了可行的命中点,通过按需和简单定制化学的结合,快速优化结果在短短4个月内发现了纳摩尔Mpro抑制剂。本研究中最佳化合物具有良好的体外ADMET特性,具有38 nM的亲和力和77 nM的细胞抗病毒效力,与临床使用的PF-07321332 (nirmatrelvir)65相当。随着库规模的增加,对接本身的计算时间和成本成为筛选的主要瓶颈,即使使用大规模并行云计算也是如此。迭代方法最近被建议用于处理这种规模的库;例如,VirtualFlow使用逐步过滤整个库的对接算法提高精度,筛选了大约14亿个Enamine REAL化合物。虽然速度提高了几倍,但该方法仍然需要一个完全枚举的库,其计算成本随着化合物的数量线性增长,限制了其在快速扩展的化学空间中的适用性。从一组有限的片段中设计分子以最佳地填充受体结合袋的想法从药物发现的早期就开始考虑,例如在LUDI算法中实现。然而,设计的化合物的定制合成仍然是这些方法的主要瓶颈。最近开发的虚拟合成分层枚举筛选(V-SYNTHES)26技术将基于片段的设计应用于按需化学空间,从而避免了自定义合成的挑战(图3)。从REAL Space反应和构建块(synthons)的目录开始,V-SYNTHES首先通过在一个附件点上完全枚举synthons,准备了一个具有代表性的化学片段的最小库。在另一个(或多个)位置上盖上甲基或苯基。然后,基于对接的筛选允许选择得分最高的片段(例如,前0.1%),这些片段预计会很好地结合到目标口袋中。对第二个位置(然后是第三和第四个位置,如果有的话)重复此操作,并在每次迭代时针对目标口袋筛选得到的集中库。在最后一步,来自REAL Space的前50,000个完整化合物将使用更精细和准确的对接参数或方法进行对接,并对排名靠前的候选物进行新颖性、多样性和所需药物样特性的筛选。在后处理中,选择最佳的50-500个化合物进行合成和测试。我们的评估表明,在V-SYNTHES算法中,将合成子与支架结合并在其上加上虚拟最小基团是最佳片段预测的关键要求,因为构建块和支架的活性基团通常会产生强而虚假的相互作用,而这种相互作用并不存在于完整的分子中。该算法的另一个重要部分是评估目标中的碎片绑定姿势,它优先考虑那些指向碎片有空间生长的口袋区域的最小帽的命中。
V-SYNTHES最初用于发现大麻素受体CB2拮抗剂的新化学型,其亚微摩尔配体的命中率为23%,比标准VLS的命中率高出5倍,而计算资源减少了约100倍26。在同一项研究中,ROCK1激酶筛选也发现了类似的命中率,只有一个低纳摩尔范围内的命中率。V-SYNTHES正在应用于其他具有明确口袋结构的治疗相关靶点。到目前为止,BioSolveIT已经实现了一种类似的方法,即化学空间对接,用于双组分反应67。这种方法甚至更快,因为它对接单个构建块片段,然后用scaffold和其他synthons枚举它们。然而,为了获得额外的速度,也有一些代价:没有支架的小片段对接不太可靠,它们的反应基团通常与反应产物具有不同的性质。这可能会引入与最终化合物无关的强受体相互作用,并可能误导片段选择。对于环成瘾反应和三组分支架尤其如此,这需要在化学空间对接中进一步验证。除了支持命中的丰度、化学多样性和潜在质量外,基于结构的模块化方法在识别具有强大化学新颖性的命中方面特别有效,因为它们(1)不依赖于现有配体的信息,(2)识别以前从未合成过的配体。这是确保命中化合物和由千兆级筛选产生的先导系列的化学物质的可专利性的一个重要因素。此外,数以千计的易于合成的类似物确保了广泛的sar -by-catalog最佳命中,例如,使CB2 V-SYNTHES命中的效力和选择性提高了大约100倍。多层按需化学空间扩展的可用性(例如,由MADE构建块支持47)也可以通过“虚拟MedChem”大大简化导联优化的下一步步骤,从而减少大量的定制合成。在基于人工智能的人脸识别、ChatGPT和AlphaFold时代,人们对数据驱动的深度学习方法在药物发现中的应用产生了巨大的兴趣,从目标识别到先导优化再到转化医学(如参考文献所述)。数据驱动方法在药物发现方面有着悠久的历史,其中ML算法(如支持向量机、随机森林和神经网络)已被广泛用于预测配体性质和靶标活动,尽管结果好坏参半。准确的定量结构-性质关系(QSPR)模型可以预测物理化学(例如,溶解度和亲脂性)和药代动力学(例如,生物利用度和血脑屏障渗透)特性,其中用于模型训练的大型和广泛的实验数据集是可用的,并且还在不断增长。ML也在许多定量合成孔径(QSAR)算法中实现,其中训练集和生成的模型集中在给定的靶标和化学支架上,有助于指导铅的亲和力和效价优化。基于广泛的配体-靶标结合数据集、化学相似性聚类和基于网络的方法也被建议用于药物再利用76,77。深度学习的出现将数据驱动模型提升到了一个新的水平,允许分析更大、更多样化的数据集,同时推导更复杂的非线性关系,大量文献描述了特定的深度学习方法和药物发现的应用。由于其“从例子中学习”的性质,人工智能需要全面的配体数据集来训练预测模型。对于QSPR,已经积累了大量的公共和私人数据库,其中包含了数千种不同化合物的各种特性,如溶解度、亲脂性或口服生物利用度和脑渗透性的体外代理,实验测量了数千种不同化合物,从而可以在广泛的新化合物中预测这些特性。然而,根据数据的可用性,QSAR模型的质量对于不同的靶标类别是不同的,其中激酶超家族和胺能gpcr取得了最大的进展。最近有200多名专家参与的IDG-DREAM药物激酶结合预测挑战赛给出了最佳ML QSAR模型的无偏基准。在盲评估中排名靠前的预测模型包括核学习、梯度增强和基于dl的算法。表现最好的模型(来自Q.E.D团队)使用核回归,将ChEMBL79和Drug Target Commons80数据库中的13608种化合物和527种激酶之间的60000多个化合物-激酶对的蛋白质序列相似性和亲和力值作为训练数据。最好的深度学习模型使用了多达900,000个实验配体结合数据点进行训练,但在性能上仍然落后于更简单的核模型。在挑战集中,最佳模型的预测与实验pKd值的Spearman秩系数为0.53,均方根误差为0.95。这种准确性被发现与激酶抑制的单点实验分析的准确性和召回率相当,并且可能在筛选较少探索的激酶的初始命中和指导导联优化方面有用。然而,请注意,激酶家族是独一无二的,因为它是500多个靶点中最大的一类,所有靶点都具有相似的orthosteric binding口袋,并且具有高交叉选择性。遥远的第二个具有系统交叉反应性的家族包括大约50个氨基GPCR,而其他GPCR家族和其他交叉反应蛋白家族则要小得多。ML和DL方法对这些目标和其他目标的性能和通用性仍有待测试。开发可广泛推广甚至通用的模型是人工智能驱动的药物发现的关键愿望。这里的一个方向是从已知配体活性和相应的蛋白质-配体三维结构的数据中提取一般的结合亲和力模型(结合评分函数),例如pdbinding数据库中收集的数据81或通过对接获得的数据。这些模型探索了各种方法来表示数据和网络架构,包括空间图卷积模型,3D深度卷积神经网络或它们的组合。然而,最近的一项研究发现,无论神经网络结构如何,与仅配体或仅忽略相互作用的受体的简单近似相比,明确描述pdbinding复合物中的非共价分子间相互作用并没有提供任何统计优势。因此,基于pdbinding的DL模型的良好性能依赖于记忆相似的配体和受体,而不是捕获它们结合的一般信息。对这一现象的一种可能解释是pdbinding数据库没有足够的“负空间”表示,即具有次优交互模式的配体来执行训练。这一事故说明需要更好地理解深度学习模型的行为及其对训练数据的依赖,这在人工智能社区得到了广泛的认可。研究表明,深度学习模型,尤其是基于缺乏负面数据的有限数据集的模型,容易出现过度训练和虚假表现,有时会导致整个类别的模型被认为是“无用的”或被定义训练数据的主观因素严重偏见。正在开发统计工具,以确定适用范围并仔细验证模型的性能。提出的概念之一是“验证数据科学”的可预测性、可计算性和稳定性框架。人工智能社区的领导者已经明确指出,充分选择高质量的数据是缩小“生产差距”的主要要求,或者是机器学习模型在现实世界中部署时无法成功的主要要求,因此要求采用以数据为中心的方法来实现人工智能。也有人试图开发工具,使人工智能“可解释”,也就是说,能够在数据中制定一些一般趋势,特别是在药物发现应用中。尽管存在这些挑战和限制,人工智能已经开始对药物发现产生重大影响,第一批基于人工智能的候选药物已经进入临床前和临床研究。对于激酶,ai驱动的化合物被报道为有效的酪氨酸激酶受体DDR1的体内抑制剂,该受体参与纤维化。ISM001-055(也称为INS018_055)用于治疗特发性肺纤维化的I期临床试验已经宣布,尽管该化合物的特性及其靶点尚未披露。对于gpcr,靶向5-HT1A、双5-HT1A - 5- ht2a和A2A受体的ai驱动化合物最近进入临床试验,为ai驱动的药物发现概念提供了进一步的支持。这些最早的成功案例来自于激酶和GPCR家族,它们的药理学已经得到了充分的研究,并且这些化合物与已知的高亲和力支架具有密切的化学相似性。提高新一代DL候选药物的新颖性和适用范围是非常重要的。混合计算方法如上所述,基于物理和数据驱动的方法在预测配体效力方面具有明显的优势和局限性。基于结构的对接预测自然可以推广到任何具有3D结构的目标,并且可以更准确,特别是在消除假阳性方面,这是筛选的主要挑战。相反,数据驱动的方法可以代替结构,并且可以更快,特别是在GPU加速的情况下,尽管它们很难泛化到数据丰富的目标类之外。因此,有许多正在进行的努力将基于物理和数据驱动的方法以某种协同方式结合起来(一般来说,特别是在药物发现方面)。在虚拟筛选方法中,基于物理的对接与基于数据的评分功能的协同使用可能非常有益。此外,如果基于物理和基于数据的评分函数相对独立,并且都在选定的重点库中产生丰富性,则它们的组合可以降低假阳性率并提高命中质量。这种协同作用反映在最新的3DR大挑战4配体IC50预测结果中,其中结合使用基于物理和机器学习评分的顶级方法优于未使用机器学习评分的方法。展望未来,基于物理、机器学习和混合方法的全面基准测试将成为新的计算命中查找实验(CACHE)关键评估的重点。它将评估与实际hit和lead发现和优化相关的五个具体场景97。在更深层次上,精确的基于物理的对接结果(除了实验数据,例如来自PDBbind81的数据)可用于训练预测配体-受体亲和力的广义图或3D DL模型。这将有助于显著扩展训练数据集并平衡正负(次优绑定)示例,这对于避免参考文献87中描述的过度训练问题非常重要。这种基于dl的3D评分功能用于预测对接蛋白-配体复合物的分子结合亲和力,目前正在开发和基准测试中,最近的是RTCNN,尽管它们的实际用途仍有待证明。为了将基于结构的对接适用范围扩大到那些缺乏高分辨率结构的目标,使用人工智能衍生的AlphaFold2(参考文献)也很有吸引力。或RosettaFold101 3D模型,它们已经在许多应用中显示出实用性,包括蛋白质-蛋白质和蛋白质-肽对接102。传统的基于蛋白质相似度的同源性模型,特别是与已知配体修饰后的模型,已经用于小分子对接和虚拟筛选,因此AlphaFold2有望进一步扩大结构建模的范围和准确性。在最近的一份报告中,AlphaFold2模型通过其他人工智能方法增强,帮助鉴定了一种周期蛋白依赖性激酶20 (CDK20)小分子抑制剂,尽管其亲和力为8.9 μM(参考文献105)。然而,对AlphaFold2模型在虚拟筛选中的性能进行更一般的基准测试,结果好坏参半。在针对现有晶体结构目标的基准测试中,大多数AlphaFold2模型必须清除阻塞结合袋的环和/或用已知离子或其他辅因子增强,以实现hit的合理富集。对于缺乏实验结构的靶点,特别是配体结合口袋中结构同源性不太明显的靶点,AlphaFold2模型在小分子对接中的表现在最近对GPCR和抗菌靶点的评估中令人失望[107,108]。最近开发的AphaFill方法用于将PDB结构中的小分子辅因子和配体“移植”到同源的AlphaFold2模型中,这可能有助于验证和优化这些模型,尽管进一步评估其对接和虚拟筛选的效用仍在进行中。为了加快超大型化学文库的虚拟筛选,一些研究小组提出了混合迭代方法,其中使用稀疏文库子集基于结构的对接结果来训练ML模型,然后使用该模型过滤整个文库以进一步减小其规模。包括MolPal、Active Learning110和DeepDocking在内的这些方法报告称,14亿个化合物库的计算成本减少了14-100倍,尽管尚不清楚它们如何扩展到快速增长的化学空间。我们应该在这里强调,快速对接算法和ML模型中的评分函数主要是为了有效地分离潜在的目标结合物和非结合物而设计和训练的,尽管它们在预测结合亲和力或效力方面不是很准确。为了获得更准确的药效预测,通过初始人工智能或基于对接的筛选选择的较小的候选结合物集中库可以使用更复杂的基于物理的工具进一步分析和排名,包括配体结合的相对自由能和绝对自由能的自由能扰动方法。虽然这些方法要慢得多,但GPU加速计算的利用在虚拟筛选活动的后处理中有更广泛的应用潜力,以进一步提高高亲和力候选对象的命中率(图2),以及在先导优化阶段。用于筛选药物发现的千兆级化学空间的快速实用方法的出现刺激了这些按需空间的进一步增长,支持了更好的多样性和确定的命中和线索的整体质量。专为V-SYNTHES筛选而开发的Enamine REAL Space的xREAL扩展现在包含1730亿个化合物,并且可以通过利用更大的构建块集(例如,6.8亿个MADE构建块),通过包括四组分或五组分支架,以及通过使用新发现的类似点击的化学物质,进一步扩展到1015个化合物或更多。对made增强的真实空间以及其他商业和专有化学空间的实际测试将允许对其综合能力和整体效用进行更广泛的评估。与此同时,专门的超大型文库可以用于在一般用途按需空间中代表性不足的重要支架,例如,筛选7500万个易于合成的四氢吡啶的虚拟文库最近产生了5-HT2A受体的强效激动剂。按需化学空间的规模和多样性的进一步增长也得到了最近发展的新的强大反应的支持,这些反应用于类似点击的构建块组装。除了被2022年诺贝尔化学奖认可的“经典”叠氮化物-炔环加成点击化学,以及优化的类似点击的反应,包括SuFEx122,最近的发展,如ni电催化双脱羧交叉偶联123显示出希望。其他碳-碳形成反应使用甲基氨基二乙酸硼酸盐进行Csp2-Csp2偶联,最近使用四甲基n -甲基氨基二乙酸硼酸125进行立体定向Csp3-C键形成。这些反应中的每一个都可以迭代地产生新的按需化学空间,这些化学空间由数十亿种不同的化合物组成,而这些化合物的组成部分数量有限。与肽合成中氨基酸的常规自动组装类似,完全自动化的过程可以由机器人来完成,机器人可以根据需要使用几千种不同的构建块组合来生产类似药物的化合物库。这种机器已经开始工作了,尽管大规模生产数千种专门的积木仍然是瓶颈。合成化学中的新计算方法也可以支持更健壮的生成化学空间的发展,例如,预测新的迭代反应序列或合成路线,以及基于dl的反合成分析的可行性。在生成模型中,可合成性预测可以与效能和其他属性的预测相结合,以实现更高水平的自动化化学设计。因此,结合强化学习(GAN-RL)的生成对抗网络最近被用于预测化合物的合成可行性、新颖性和生物活性,从而实现了配体在硅优化、合成和体外测试的迭代循环。当将这些方法应用于一系列成熟的反应和药理学探索的靶标类别时,这些方法已经产生了有用的命中和线索,从而导致临床候选药物。然而,自动化化学设计概念和机器人合成在药物发现方面的更广泛潜力仍有待观察。尽管对越来越多的靶点进行盲基准测试和最近的前瞻性筛选成功案例支持现代计算工具的效用,但仍有许多具有挑战性的靶点,其中现有的硅筛选方法本身并不能很好地发挥作用。一些最困难的情况是具有隐蔽性或浅袋的靶标必须打开或经历大量的诱导配合才能参与配体,如在靶向变抗位点时经常发现的,例如,在激酶或gpcr中,或信号通路中的蛋白质-蛋白质相互作用中。虽然生物信息学和分子动力学方法可以帮助检测和分析变构袋和隐袋,但仅靠计算工具通常不足以支持这些具有挑战性的位点的配体发现。然而,基于片段的药物发现方法已经相当成功地处理了隐藏的和浅的口袋,这些方法从实验筛选小片段的结合开始。通过非常灵敏的方法(如BIACORE, NMR, X-ray和潜在的低温电子显微镜可以可靠地检测到弱结合,通常在10-100 μ m范围内。靶标的初始筛选也可以用化学战斗部修饰的片段进行,使低亲和配体的邻近驱动共价附着成为可能。在这两种情况下,将初始片段与完整的高亲和力配体结合是基于片段的药物发现的关键瓶颈,这需要付出很大的努力,包括“生长”片段或将两个或更多片段连接在一起。这通常是一个涉及定制配体设计和合成的迭代过程,可能需要多年时间。同时,基于结构的虚拟筛选可以帮助计算精心设计的片段,以匹配实验确定的目标结合袋的构象。最具成本效益的是,当从按需空间构建块或其相近的类似物中识别出碎片命中时,可以应用这种方法,以便在同一按需空间中轻松进行加工。最近针对SARS-CoV-2抑制剂的基于混合碎片的计算设计方法的例子突出了这些目标所带来的挑战,并允许与超大型VLS进行正面比较。其中一项研究针对SARS-CoV-2 NSP3保守大结构域酶(Mac1),这是病毒发病和致死的关键靶点。基于对弱结合Mac1的低亲和力(180 μM)片段的晶体学检测,合并片段确定了1 μM的hit,并通过目录合成快速优化为0.4 μM的lead。在同一项研究中,对4亿个REAL数据库进行了超规模筛选,确定了100多种新的药物样配体化学型,随后进行了sar目录优化,获得了1.7 μ m的lead。对于SARS-CoV-2主要蛋白酶Mpro, COVID Moonshot计划公布了1500个小片段的晶体学筛选结果,这些小片段在浅活性位点的不同亚包中结合了71个hit,尽管即使在100 μM下也没有显示出对蛋白酶的体外抑制。许多团队将后续的计算设计和合并和生长片段的筛选众包,帮助发现了几个SAR系列,包括酶促IC50为21 μM的非共价Mpro抑制剂。通过基于结构和人工智能驱动的计算方法的进一步优化,使用了超过1000万个MADE Enamine构建块,发现了基于细胞的IC50在大约100 nm范围内的临床前候选药物,接近nirmatrelvir65的效力。这项“登月计划”的巨大规模、紧迫性和复杂性是前所未有的,它按需合成了2400多种化合物,并进行了1万多次检测,这凸显了重新设计Mpro非共价抑制剂的挑战。除了登月计划之外,大量的虚拟筛查工作大多产生了令人失望的结果,例如,在早期的虚拟筛查中提出的抗疟疾药物埃布selen在临床试验中失败了。然而,这些研究大多筛选的小配体集中在现有药物的再利用上,缺乏实验支持,并且使用了Mpro在共价配体复合物(PDB ID: 6LU7)中的第一个结构,该结构不适合对接非共价分子142。相比之下,一些筛选超大型文库的研究能够鉴定出10-100 μ m范围内的非共价Mpro抑制剂(24、62、63、143),而实验只检测了数百种合成的按需化合物。其中一项研究进一步阐述了这些弱VLS命中,通过测试它们的Enamine按需类似物,在基于细胞的分析中揭示了IC50 = 1 μM的铅,并在晶体学上验证了其非共价结合63。另一项研究基于Mpro (PDB ID: 6W63)更合适的非共价共晶结构,使用超大对接和优化策略发现了更有效的38-nM先导化合物64。值得注意的是,尽管Mpro最初的超大筛选结果并不理想,但它们与Moonshot混合方法的复杂和昂贵得多的努力相当,只需简单的按需优化就可以获得类似质量的临床前候选药物。这些例子表明,即使对于具有挑战性的浅袋,基于结构的虚拟筛分通常也可以在千兆量级上进行,并得到精确的结构、充分的测试和优化工作的支持,从而提供可行的替代方案。面对所有的挑战和警告,在关键的靶标-靶向-先导-临床阶段,计算机工具的新兴能力有效地利用了药物样按需化学空间的巨大丰度和多样性,这使得人们很容易呼吁将DDD生态系统从计算机辅助转变为计算机驱动144(图4)。在早期的靶向识别阶段,超规模虚拟筛选方法,无论是基于结构还是基于人工智能,在为药物发现活动提供快速和具有成本效益的切入点方面正在成为主流。在hit- by -lead阶段,更精细的效价预测工具,如自由能摄动和基于人工智能的QSAR,通常指导配体效价的合理优化。除了靶向效力和选择性之外,各种数据驱动的计算工具通常用于包括ADMET和PK性质在内的先导系列的多参数优化。值得注意的是,超过1010种不同化合物的化学空间可能包含数百万个针对每个靶标的初始靶点20(框1),数千个有效和选择性先导物,并且在相同的高度可处理的化学空间中有一些有限的药物化学,可以用于临床前研究的候选药物。为了利用这一潜力,计算工具需要变得更加强大,并更好地集成到整个发现管道中,以确保它们在将初始hit转化为临床前和临床开发方面的影响。
在这里,人们不应该忘记,任何计算模型,无论多么有用或准确,都可能永远无法确保所有的预测都是正确的。在实践中,最佳的虚拟筛选活动在实验验证中确认了10-40%的候选命中,而在优化中使用的最佳亲和预测很少具有优于1 kcal mol−1均方根误差的准确性。类似的限制也适用于目前预测ADMET和PK性质的计算模型。因此,计算预测总是需要在管道的每个步骤中进行可靠的体外和体内试验验证。同时,预测的实验测试也提供了数据,可以通过扩展模型的训练数据集来反馈提高模型的质量,特别是对于配体性质的预测。因此,基于dl的QSPR模型将极大地受益于CACO-2和MDCK等细胞渗透性分析中进一步积累的数据,以及诸如器官芯片或功能性类器官等新的先进技术,以提供更好的ADMET和PK特性估计,而无需繁琐的体内实验。用体外分析数据训练ADMET和PK模型的能力,代表了与药物开发最相关的物种(通常是小鼠、大鼠和人类),也将有助于解决物种变异问题,这是成功转化研究的主要挑战。所有这些都创造了一个良性循环,可以改进计算模型,使其能够驱动大多数DDD端点的复合选择。当与更精确的体外试验相结合时,这可能会减少并最终消除动物试验要求(正如FDA最近指出的那样)。在基因到导联过程的所有阶段,构建易于访问巨大的按需化学空间的硅-体外杂交管道可以帮助生成丰富的具有最佳效价、选择性和ADMET和PK特性的不同先导化合物,从而减少临床候选药物的多参数优化妥协。运行这种数据丰富的计算驱动的管道需要用于药物发现的总体数据管理工具,其中许多正在制药和学术DDD中心实施。构建计算驱动的管道还将有助于揭示薄弱或缺失的环节,在这些环节中,可能需要新的方法和额外的数据来生成改进的模型,从而有助于填补DDD管道中剩余的计算空白。如果这种系统整合继续下去,计算机驱动的配体发现有很大的潜力,可以减少产生分子的进入壁垒,用于许多研究领域,无论是用于新的和未充分研究的靶标的体内探针,多药理学和多维信号传导,还是用于罕见疾病和个性化医疗的候选药物。原文链接:https://doi.org/10.1038/s41586-023-05905-z注:本公众号推送内容以交流学习为目的,并非商业用途,如有侵权,请联系协商处理。欢迎各位专家学者投稿,分享Ai+材料最新科研成果!
投稿邮箱:zyj1047587695@qq.com
群聊:材料与人工智能-学习交流群
加群方式:添加编辑微信:zyj1047587695,请备注:单位-姓名-研究方向,由编辑审核后邀请入群

材料与人工智能
斗转星移,光阴飞逝,AI使世界变化之快,如过隙白驹,让我们目不暇接。一种难以厘清的压迫感隐约而至。科学研究方式与生态是否处于大变革前夜?我们冥思,我们求索,为此创办此公众号,与大家分享和讨论AI在材料科学领域的最新进展、问题和挑战。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢