【论文标题】High-throughput deep learning variant effect prediction with Sequence UNET
【作者团队】Alistair S. Dunham, Pedro Beltrao, Mohammed AlQuraishi
【发表时间】2022/05/24
【机 构】哥伦比亚大学、ETH
【论文链接】https://doi.org/10.1101/2022.05.23.493038
【代码链接】github.com/allydunham/sequence_unet
了解蛋白质突变编码对生物学和医学的许多应用非常重要。由于物种间可能存在大量的突变,即使使用最近的高通量技术,也不可能进行全面的实验表征,这意味着计算预测突变对许多分析是至关重要的。以前的突变效应预测(VEP)工具,通常基于进化保守和蛋白质结构的计算密集型的方法,使其难以扩展并限制了潜在的应用。最近,包括蛋白质语言模型在内的深度学习技术和生物数据规模的发展带来了新一代的预测器。这些模型提高了预测性能,但由于缓慢的训练步骤、硬件要求和庞大的模型规模,运行起来仍然常常很密集。在这项工作中,本文介绍了一个新的高度可扩展的深度学习架构Sequence UNET,它可以直接从蛋白质序列中分类和预测突变体频率。这个模型通过使用完全卷积的U型压缩/扩展架构,在一系列的尺度上学习建立蛋白质序列特征的表征。本文表明,它可以推广到致病性预测,在ClinVar上实现了与EVE和ESM-1b等预训练方法相当的性能,而计算成本大大降低。作者通过分析大规模蛋白质组学分析中检测到的904,134个蛋白质中的83亿个突变体,进一步证明了方法的可扩展性,显示了保护和蛋白质丰度之间的联系。
A图:展示了Sequence UNET模型。蓝色矩形代表中间层输出矩阵,绿色代表最终预测。
B图:一维卷积操作示意图,它处理周围位置的特征。在每一层学习许多过滤器以建立输出特征。
C图: 每层中从一个单一的输出位置的感受野的说明。
D图: 可选结构模型GraphCNN的示意图。
E图:柱状图显示了通过两个常用的工具SIFT4G和FoldX以及Sequence UNET对SARS-CoV-2穗状蛋白的所有变体进行预测的计算时间。这些工具是在以前的分析中选择的,但大致跨越了目前工具的典型时间尺度。
本文已经开发了一个高度可扩展的VEP,Sequence UNET,它使用一个卷积神经网络(CNN)架构来实现计算效率和对长度的独立性。卷积核还自然地整合了附近氨基酸的信息。由于长距离的相互作用经常产生蛋白质的特性,本文还设计了该模型,使用U-NET图像分割网络启发的U形压缩/扩展架构来整合遥远的信息。Max pooling创建了连续的较小的层,从广泛的区域吸取信息,最后的分类是通过依次处理每个深度的特征来建立的,整合来自广泛的感受野的信息。由于蛋白质结构所包含的信息仅从序列中提取是非常困难的,该网络支持一个可选的图卷积神经网络(GraphCNN)模块来总结位置结构特征,然后将其与序列输入相连接。该模型还可以通过对外部数据的额外训练来微调新的任务,或者完善现有的权重(微调),或者用一个新的初始化的分类层(top模型)来取代最终的分类层。
A图:预测值和真实PSSM值之间的皮尔逊相关性,比较Sequence UNET、单层CNN、SPBuild、ESM-1b logits、ESM-1b top模型和BLOSUM62的PSSM预测性能。
B图:ROC和PR曲线AUC值比较了有和无结构特征的Sequence UNET、ESM-1b logits、ESM-1b top模型、基线单层CNN、SIFT4G和BLOSUM62的频率分类性能。所有的比较都是在ProteinNet CASP12测试集上进行的。
上图展示了基线模型的预测性能。本文训练了两个基础Sequence UNET模型,使用softmax输出层和Kullbeck-Leibler散度损失优化PSSM预测的性能,使用sigmoid输出和二元交叉熵优化变异频率分类。在两种模式下调整超参数,结果相同。该模型预测的PSSMs与真实结果非常相似,频率分类器明显地将稀有变体和普通变体分开。本文的模型的PSSM结果与ProteinNet测试集的真实值的相关性比SPBuild24(一个最先进的de novo LSTM PSSM预测器)、ESM-1b预测的氨基酸倾向性以及使用ESM-1b表征在ProteinNet CASP12 95%稀疏数据上训练的top模型的结果更加强烈。有趣的是ESM-1b对数与原始频率的相关性比归一化的PSSMs好得多,这可能是因为它们被训练来识别一个位置上最可能的氨基酸,而不是区分对PSSMs很重要的低频率。
加入结构特征可以稍微提高性能(ρ = 0.472 vs ρ = 0.451)。在ProteinNet CASP12测试集上,频率分类也有类似的结果(f < 0.01),Sequence UNET取得了最高的性能,相当于使用ESM-1b表示的top模型。本文只与一个VEP(SIFT4G)进行比较,因为删除性与频率分类有关,但不等同于频率分类,而是在其他数据集上进行更广泛的比较。不同的频率阈值导致不同的分类性能,表明非常罕见或常见的变体很容易分类,但中间的变体更具挑战性。
A图:对ProteinNet Casp12测试集记录TBM#T0865的序列UNET top模型ClinVar致病性预测。每个位置上的野生型氨基酸被勾画出来。
B: ROC AUC值比较了VEP在ClinVar测试集上的表现。序列UNET的变体用紫色、蓝色和红色表示,单层CNN模型用绿色表示,几个著名的模型用黄色表示。在有结构数据的ClinVar子集上测试的实例用星号(*)标记。
C:VEP预测和标准化的DMS数据之间的Spearman等级相关系数的平均值和标准误差。序列UNET、ESM-1v、SIFT4G和FoldX预测可用于所有蛋白质,而其他工具仅用于人类蛋白质。
D: ROC AUC值比较了VEP在分类已知有害和中性S. cerevisiae变体方面的表现。
本文在三个数据集上测试了泛化能力:来自ClinVar的标记的人类蛋白质变体,标准化的深度突变扫描(DMS)数据,以及一组金标准的S. cerevisiae变体分类。
本文在Sequence UNET频率分类模型的基础上,使用随机的95%/0.5%/4.5%的训练/验证/测试比例,对ClinVar数据集中所有发生在ProteinNet CASP12训练数据中的蛋白质中的致病变体和中性变体进行了ClinVar分类顶级模型和带和不带结构特征的微调模型。除了最上面的两个模型层外,所有的权重都被冻结,以防止过度拟合。本文还训练了简单的单层CNN模型来预测ClinVar的致病性和频率分类,以便为这个问题的机器学习解决方案提供一个下限。微调后的模型具体预测了每个变体在所有位置的致病性概率。与频率分类和PSSM模型的结果相比,这些预测对一个位置的变体,包括野生型氨基酸,往往更加相似。这部分是因为致病性与位置的属性和重要性有关,但也表明可能没有足够的训练数据来区分一个位置上的不同变体,超出了该位置的平均属性。
上图展示了高通量蛋白质组分析
A图:Muller等人的蛋白质组学数据集中的蛋白质和物种数量,共收集了来自 103 个物种的蛋白质丰度测量值,共检测到 904,134 种不同的蛋白质
B图:SIFT4G、FoldX、单通ESM-1b和Sequence UNET在CPU和GPU上对这个蛋白质组学数据集中的所有 83 亿个可能的变体进行了预测的计算速度比较。Sequence UNET也在GPU上进行了测试,批次为100个。SIFT4G和FoldX的计算是作为独立的深度突变扫描分析的一部分进行的25,ESM-1b是在ProteinNet蛋白质上运行的,Sequence UNET的计算是跨越这个蛋白质组学数据集的。在 GPU 上使用 100 的批处理大小(不使用批处理需要 6.8 小时)需要 1.5 小时,而仅使用 CPU 需要 50.9 小时
C:每个物种中预测的保护性和蛋白质丰度之间的皮尔逊相关系数,可以发现该数据集中 103 个物种中的大多数物种的蛋白质丰度与预测的蛋白质保守性之间存在显着相关性。Pearson's ρ的误差范围是用Fisher's Z变换计算的。预测的保护性被总结为不同位置上预测为有害的变体的平均数量。结果显示了所有物种的序列UNET频率预测,以及支原体和Mutfunc30中有数据的物种的SIFT4G预测。该物种的系统发育也是基于NCBI分类学共同树显示的。
D: Boxplot显示每个域的相关系数的分布,在SwissProt和TrEMBL中的蛋白质之间分割。更仔细地观察表明这部分是由 T rEMBL 蛋白的一部分引起的,这可能包括虚假的开放阅读框,并且在本文的分析中,在古细菌中往往具有较弱的相关性。P值来自于两个样本的非配对T检验。
E: 皮尔逊相关和各物种原始蛋白丰度的标准差之间的关系。蛋白质丰度和蛋白质长度的变化也影响丰度相关性,这表明部分差异可能来自蛋白质形式的整体变异减少。
创新点
本文得出的Sequence UNET 模型架构从其他 CNN 模型中汲取灵感,包括基于序列、结构和图像的任务,并将它们组合成一个新颖的模型。U 形压缩/扩展结构允许信息在蛋白质中传播,低层神经元的“感受野”覆盖原始序列的大部分区域,就像它们在原始 UNET 中跨图像整合信息一样。这允许将高性能 CNN 操作用于基于序列的问题,同时允许过滤器学习不同细节级别的序列模式。
GraphCNN 具有高性能,并且已被证明可以执行蛋白质结构任务,并且它们的位置不变性使它们成为包含结构特征的自然方法。本文尝试了包括结构在内的各种其他方法,包括扭转角和计算特征轮廓,但发现 GraphCNN 提供了最佳性能和效率。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢