https://github.com/ur-whitelab/wazy
预训练模型在自然语言、计算机视觉和现在的蛋白质序列中都有变革性的作用,因为它可以用很少的训练数据来实现较好准确性。本文展示了如何在贝叶斯优化中使用预训练的序列模型,以最少数量的标签设计新的蛋白质序列。预训练的模型在低数据下能给出良好的预测精度,贝叶斯优化指导选择哪些序列进行测试。预训练的序列模型也避免了常见的对有限采样池的需求,任何序列都可能被考虑。本文表明,许多序列设计任务所需的标记序列明显减少,包括用AlphaFold设计多肽抑制剂。这项工作展示了可以用很少的例子进行预测,用小样本方法进行迭代设计。
上图展示了模型和贝叶斯优化流程的概述。在BO获取函数最大化过程中,序列由logits定义,然后进行标注。然后,完整的序列和标签集被重新用于训练深度集合的MLP。最后,该MLP被用于下一轮的BO。
该流程目标是通过BO从零标记的数据点开始,找到使f(x∗)最大化的x∗。这需要昂贵的黑箱函数f (x)对序列x的属性y进行标记。f (x)可能需要在实验前进行合成,或者进行分子动力学计算,或进行昂贵的计算,具体而言:
- 首先构建一个预训练的序列模型,将一个序列x∈{0,1} L×A纳入一个连续的向量空间u(x)=⃗u∈R^D,其中L是序列长度,A是序列中可能的标记数(alphabet),D是序列表征的维度。
- 然后对u(x)使用UniRep。Unirep是一个在JAX中实现的LSTM模型,经过训练可以进行下一个氨基酸预测。通过多层感知器(MLP)g(⃗u)=yˆ,从⃗u预测属性。另外为了实现不确定性预测,使用了深度集成方法,预测了一个由M个模型gm(⃗u)参数化的正态分布。
- 最后,为了能够优化输入序列x,在BO过程中,从可训练的logits为特征的分类分布中抽取序列,类似于Gumbel-Softmax Trick。
BO(贝叶斯优化)是一种无梯度的全局函数优化方法,它是为昂贵的评估函数而构建的。贝叶斯优化的目标是探索和利用现有的知识,这些知识在一个获取函数中表达。本文使用最简单的获取函数UCB来平衡探索和利用。BO需要计算代用模型相对于输入x的梯度,以最大化获取函数。可以将x重新定义为由连续logits l∈RL×A参数化的随机分类分布。然后,当需要一个序列时,xi从第i个位置的随机抽取的分类中计算出来。在每次BO迭代中,通过对长度为L-1、L和L+1的采集函数进行最大化,将可变的序列长度纳入考虑并在下一次迭代中用最好的长度L代替。
这里的关键问题是logits可能接近零,从而使采样的序列高度可变,或者对数的大小可以增长,梯度更新不再实际改变序列。我们使用了Linder & Seelig介绍的一种略有不同的方法,即简单地添加一个可训练的 layer 归一化,可以影响logits的平均值和方差。最近,Daulton等人表明,具有概率重参数化的BO会收敛到采集函数的真正最大值。虽然,L×A logit矩阵的收敛仍然是一个困难的高维优化问题。
上图中使用UniRep解码器,即使用连续的隐空间来避免直接优化序列。作者通过梯度来优化g(⃗u),但是发现解码器x′=u^(-1)(⃗u)给出的序列与前向标签g(u(x′))却有所不一,并阻止优化超过某一点。上图显示了隐空间的优化有持续的改善,但在解码到实际序列并评估g(⃗u)后,有一个平台期。橙色的线表示很快就能找到一个最佳的⃗u。绿线显示,通过解码恢复最优序列,得到的序列在编码时实际上并没有改善。
本文的测试任务为溶血肽设计,未知序列匹配,以及与Ras GTP酶结合的多肽设计。消融实验配置为删除预训练的模型使用onehot编码和使用贪婪算法代替BO。
任务1: 溶血肽设计
本文用Pirtskhalava et al训练的biLSTM模型作为f(x)的替代模型。序列初始化为一个长度为10-20个均匀采样的随机肽。上图显示了算法在50次独立运行中的平均结果。模型可以在5次迭代内找到一个可能的溶血性肽,并在20次迭代后几乎与Ansari&White et al.分析的9316个多肽中最溶血的预测肽相匹配。
消融的比较显示了两个部分,预训练和BO都有助于这项任务。
任务2: 未知序列匹配
序列长度固定为13个残基。 f(x)是x和未知靶点之间的相似性分数,由BLOSUM62矩阵来衡量的。这个任务是非常具体的,所以预期预训练的作用是最小的,这项任务代表了预训练的最坏情况。
上图显示了消融的结果。这个任务是凸优化,即没有局部最大值,没有噪音,所以BO类似于代用模型预测的直接梯度上升。onehot是直接使用MLP中的序列,作者期望这是一个更好的表征,因为该任务是高度具体的,而且确实有足够的数据。尽管如此,预训练仍然在较少的数据点上表现明显收益。
任务3:蛋白多肽结合
这项任务是确定一个与目标蛋白结合的候选肽。目标蛋白Ras GTP酶的激活是由核苷酸交换因子Son of Sevenless(SoS)催化的。一种有效的SoS抑制剂将与致癌系统的受体结合域结合,防止Ras过量表达。
评估方式使用了AlphaFold2-Multimer,因为这项任务是同时预测Ras GTP酶和结合肽。AlphaFold2-Multimer在根据已知复合物的得分预测多肽-蛋白质复合物方面具有类似或优于其他docking程序的准确性。本文的f(x)结合了pLDDT与SoS结合位点的距离:f(x)=(10-RMSD)*pLDDT/100
上图显示了f(x)的BO在10次运行中的平均分,序列长度不一。该算法基于野生型(WT)SoS蛋白找到了比Anupam Patgiri et al的已知结合剂更好的结合蛋白(FEGIYRLELLKAEEAN)。这表明该方法可以优化复杂的黑箱函数。通过观察BO运行的输出蛋白与WT结合蛋白,可以看到多肽结合剂更接近。该序列还有一些半胱氨酸,AlphaFold2-Multimer预测这些半胱氨酸通过二硫键有很强的相互作用。
创新点
- 本文展示了如何在BO算法中使用预训练的序列模型。在三个任务中,这个过程只用几个数据点就能实现良好的优化。
- 本文策略是深度集成MLPs,提供校准的不确定性和序列空间的概率分布,以实现端到端的微分。
- 本文发现通常提出的在隐空间进行优化,然后再进行解码的方法在样本很少的情况下效果并不好。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢