DRUGAI
今天为大家介绍的是来自Connor W. Coley团队的一篇论文。小分子展示出理想的性质通常是通过一个迭代的设计、合成和测试分子集合的过程中发现的。从所有可能的候选分子中选择合成哪些分子是一个复杂的决策过程,通常依赖于化学专家的直觉。在此,作者提出了一个定量决策框架——SPARROW,该框架通过平衡预期信息增益和合成成本来优先选择评估的分子。SPARROW整合了分子设计、性质预测和逆合成规划,以平衡测试分子的效用与批量合成的成本。作者通过三个案例研究展示了所开发的算法如何捕捉批量合成中固有的非加性成本,利用共同的反应步骤和中间体,并扩展到数百个分子。

小分子展示出理想的性质通常通过一个迭代的设计、合成和测试分子集合的过程来优化,以阐明结构与功能之间的关系。每次设计迭代的关键挑战是从所有可能合成和测试的分子中筛选和优先选择值得研究的候选分子。这一挑战存在于分子设计的各个应用中,包括治疗候选物、有机催化剂、电池材料和可持续溶剂的发现。
尽管有许多计算工作流程可以帮助优先选择分子,但它们都对测试特定分子的成本和效用做出简化假设。例如,生成模型常常提出难以合成的分子,因此评估这些分子的成本异常高昂。合成复杂性或可及性评分过滤器可以减轻手动检查分子合成可行性的负担。然而,这些方法无法捕捉一批分子合成中的非加性成本。具体来说,单独评估化合物的过滤器无法考虑批量合成中使用共同中间体和起始材料所带来的成本节约。同样的限制也适用于逆合成软件过滤器和基于反应的生成模型。合成成本的考虑目前可能更像是一种艺术而非科学,这解释了为何作者觉得缺乏适合自动选择分子的定量决策框架,例如在先导优化活动中。
贝叶斯优化框架部分捕捉了迭代设计周期中固有的成本和实验价值的平衡。然而,即使是考虑成本的贝叶斯优化方法也假定每个实验有特定的数值成本,并且无法捕捉一批多种分子的合成成本的非加性。共同中间体和起始材料的使用、平行库化学和实验室自动化可以显著影响分子合成的成本。现有的基于库的逆合成规划方法可以捕捉共同起始材料和中间体对合成预定化合物集成本的影响。然而,这些方法并不考虑合成时的成本感知下选择化合物,以优化或获取信息增益的目的。适当考虑假设实验集的价值和成本的筛选策略可以加速分子设计活动,并扩大计算机辅助分子设计工具的采用。
模型部分

图 1
SPARROW生成了一个由候选目标分子和合成路线组成的反应网络。如图1所示,通过解决一个基于图的优化问题,来筛选出一组在合成成本和效用之间实现最佳平衡的分子和合成路线。在这个上下文中,效用衡量的是评估分子性质的价值。不同应用和设计的不同阶段,适当的效用衡量标准会有所不同。它可能包括分子性质预测、这些预测中的不确定性,或新的数据点对改进结构-性质关系的潜力。SPARROW需要一个候选库,并为每个候选分子分配相应的奖励以表示其效用。

图 2
选择分子所获得的奖励还取决于选择的合成反应步骤的成功。如果候选分子的合成路线中的某一步反应失败,则无法获得任何信息。如图2所示,作者通过最大化选择候选分子的预期奖励来形式化这一点,预期奖励可以表示为其奖励乘以成功合成的概率。在平衡成本和效用的情况下,SPARROW的目标可以形式化为所有选择目标的预期奖励除以使用选择的路线合成所有选择目标的成本。
作者将每单位成本的预期奖励转化为一个标量目标函数,同时最大化累积效用并最小化合成成本和反应失败的风险。优化的三项包括:(1)所选候选分子的累积奖励,(2)购买起始材料的成本,以及(3)反应的数量及其成功的可能性。SPARROW内部解决的线性优化问题在图2中进行了数学定义。正的权重因子(λ = [λ1, λ2, λ3])分配给每个目标相对重要性,并可以进行调整以得出在成本和效用之间明确平衡的解决方案。较高的λ1值通常会导致更多选择的候选分子和更高的累积奖励值。较高的λ2和λ3值则对选择昂贵的起始材料以及选择许多反应或实验成功可能性较低的反应施加更大的惩罚。
平衡成本和效用
作者对SPARROW的首次演示是在一个包含14种分子的候选库中,这些分子被测试为丙氨酸-丝氨酸-半胱氨酸转运蛋白2(ASCT2)抑制剂。在合成和测试之前,这些分子是通过分子对接和结合自由能模拟筛选出来的。尽管这项研究中的分子经过了多个设计周期的合成,但具有结合自由能预测的结构集作为SPARROW的一个代表性案例研究。

图 3
如图3所示,SPARROW确定了各种合成计划,这些计划在信息增益和成本之间实现了明确的平衡。SPARROW提出的合成路线的累积效用、反应步骤数和总起始材料成本在很大程度上依赖于标量化权重λ。这使用户对成本和信息增益的相对偏好可以直接影响SPARROW的解决方案。图3c显示的示例路线表明,SPARROW优先选择那些既有高奖励又可以用廉价起始材料在少数步骤内合成的分子。如果可能,SPARROW利用共同的起始材料和重叠的反应步骤来减少合成一批分子的总体成本。
作者将SPARROW的性能与不考虑批量合成成本非加性的其他筛选策略进行了比较:仅基于奖励选择、合成可及性评分以及综合评分。对于每种策略,通过改变所选化合物的数量可以获得各种解决方案。在这种情况下,SPARROW和基准解决方案需要的反应步骤数量是可比的(图3a)。与基准相比,SPARROW选择的路线需要更便宜的起始材料,并使用具有更高可能性评分的反应,这表明模型对成功合成的可能性更有信心(图3b)。
统一基于库的设计和从头设计
第二个案例研究展示了SPARROW利用共同中间体并统一基于库的设计和从头设计的能力。Koscher及其同事开发了一个自主分子发现平台用于设计同时优化吸收波长、亲脂性和光氧化稳定性的分子,他们使用了一种用于分子设计的图补全模型来生成一组候选分子。对于ASKCOS能够找到合成路线的候选分子,优先基于一组专家精心挑选的规则进行筛选。这些候选分子根据性质预测模型进行了评分,并按非支配排序从1到14排名。非支配排序的排名根据U = (14 − rank)/13转换为0到1之间的奖励。

图 4
SPARROW根据λ1值的不同发现了不同的批量高效路线(图4a–d)。与所有基准方法相比,SPARROW选择的路线由更便宜的起始材料、更少的反应和具有更高模型置信度评分的反应组成。图4e展示了SPARROW从所有候选化合物和反应节点的逆合成图中筛选出的一个解决方案。

图 5
如图5所示,这组候选化合物包含可购买的化合物,在某些情况下,SPARROW建议直接购买它们。这展示了该算法在购买候选化合物和合成其他化合物之间权衡价值的能力。尽管本案例中的所有候选分子都是由生成模型提出的,但所给出的路线展示了SPARROW统一基于库和从头设计提出的分子的能力。图5中展示的合成路线包含多个作为中间体的候选分子。通过这种方式,SPARROW形式化了药物化学中常见的格言“测试你的中间体”。
优化大规模候选集
第三个案例强调了SPARROW优化包含数百个分子的候选集路线的能力。根据与alectinib的相似性对候选分子从1到17进行排名,并根据U = (17 − rank)/16设置奖励。基于反应的模型生成的候选集具有高度可合成性,因此作者预计ASKCOS能够为大多数候选分子找到合成路线。

图 6
图6展示了SPARROW提出的一组合成路线。与之前案例研究的结果一致,SPARROW识别了重叠的反应步骤和起始材料。提议的两条最长的合成路线,假设是执行起来最昂贵的,生产了高奖励的分子。
线性优化之前的步骤——逆合成规划、可购买性搜索、条件推荐和反应评分——目前是SPARROW时间需求的主要部分。将SPARROW应用于包含数千个或更多化合物的更大候选集将得益于更快的逆合成树搜索算法和更快的提议反应评估。这些步骤速度的提高将有助于未来研究SPARROW线性优化问题在更大候选集上的扩展。
讨论
分子合成和测试的优先排序本质上是成本和效用的平衡。现有的分子设计和优先排序方法在准确捕捉效用和合成成本方面存在局限性。SPARROW是一个在分子设计周期中优先排序分子的算法框架,通过三个案例研究展示了其功能。SPARROW通过平衡信息增益和成本,整合了基于库和从头设计,降低了高成本或不可行的结构的优先级。可调整的权重因子使SPARROW能够提供在成本和效用之间平衡的各种分子和合成路线。未来的发展将放宽当前假设,采用非线性目标函数,更准确地最小化合成成本,并探索其在更大候选集上的扩展和实际应用。此外,改进分子设计、逆合成建模和反应成功预测等领域也将进一步增强SPARROW的功能。
编译 | 于洲
审稿 | 曾全晨
参考资料
Fromer J C, Coley C W. An algorithmic framework for synthetic cost-aware decision making in molecular design[J]. Nature Computational Science, 2024: 1-11.
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢