AlphaFold使用蛋白质序列作为输入,可以大规模预测高度准确的蛋白质结构。这为理解蛋白质生物学(例如蛋白质变异致病性)提供了一个有价值的起点。2023年9月19日,来自Google DeepMind的Jun Cheng等人在Science上发表了一篇题为Accurate proteome-wide missense variant effect prediction with AlphaMissense的文章。作者在AlphaFold2的基础上开发了深度学习模型AlphaMissense。AlphaMissense利用了多方面的进展:(i) 无监督蛋白质语言建模,以序列上下文为条件学习氨基酸分布;(ii) 使用了源自AlphaFold的系统;(iii) 根据人群频率数据对弱标签进行微调,从而避免人为注释的偏差。AlphaMissense预测致病性
AlphaMissense在临床注释、新发疾病变异和实验分析基准中实现了最先进的错义致病性预测。
导致人类疾病的许多基因突变都发生在蛋白质编码区。尽管对DNA进行测序和识别这些突变的能力已大幅提高,但解释其影响的能力仍然有限。在观察到的4百多万个错义突变中,只有2%在临床上被归类为致病性或良性。准确预测错义突变有助于提高罕见病的诊断率,促进相关临床治疗方法的开发或应用。
然而,当前的突变效应的多重检测(MAVE)方法虽然可以系统地测量蛋白质突变效应,并准确预测突变的临床结果,但由于MAVE实验所需的成本和劳动力,对突变致病性的蛋白质组的分析范围仍然有限。
机器学习方法可以通过分析生物数据中的模式来预测突变的致病性。AlphaMissense:微调AlphaFold以预测突变效应
作者对 AlphaFold2进行了改造,开发了 AlphaMissense。
AlphaMissense利用了AlphaFold的两个关键功能:高度准确的蛋白质结构模型和从相关序列中学习进化约束的能力。
AlphaMissense分两个阶段进行训练。在第一阶段,像AlphaFold一样进行训练,通过预测MSA中随机位置掩蔽的氨基酸的身份来执行单链结构预测以及蛋白质语言建模。作者对AlphaFold进行了一些小的架构修改,并增加了蛋白质语言建模的损失权重,同时仍实现了与AlphaFold相当的结构预测性能。
在第二阶段(图1A),对人类蛋白质进行微调,并为MSA第二行中呈现的变异序列定义了额外的变异致病性分类目标(图1A)。对于训练集,作者为在人类和灵长类动物群体中经常观察到的变异分配良性标记,并为人类和灵长类动物群体中不存在的变异分配致病标记(图 1B)。一旦模型开始在验证集上过度拟合,训练模型就会停止。
为了评估AlphaMissense和MAVE方法之间的一致性,作者根据两个MAVE数据来源对预测进行了基准测试:在ProteinGym中收集的1种蛋白质的5万个变体和由19种最近发表的人类蛋白质组成的额外基准集,这些蛋白质未包含在ProteinGym中。相对于其他方法,AlphaMissense与MAVE数据的一致性最强(ProteinGym上的平均Spearman相关性--20.0;在额外的 MAVE 基准上--514.0)。当仅限制所有方法评分的3种人类蛋白质的氨基酸突变时,AlphaMissense仍然是25种方法中ProteinGym得分最高的方法(平均 Spearman 相关性--13.0)。AlphaMissense 与变异效应的多重化验达到了最先进的一致性DeepMind为研究界发布了四个资源。第一个是包含71万个错义突变预测的数据集。在71万个错义突变中,32%被归类为可能致病,8%被归类为可能良性。第二个资源是基因水平的AlphaMissense致病性预测,定义为基因中所有可能的错义突变的平均致病性。第三个是扩展数据集,包含19,233种典型人类蛋白质中所有2.16亿个可能的单氨基酸置换。最后,提供了对60,000种替代转录异构体中所有可能的错义突变和氨基酸置换的预测,以供未来研究和评估异构体的特异性影响。AlphaMissense有可能加速我们对突变对蛋白质功能的分子效应的理解,有助于发现致病基因,并提高罕见遗传疾病的诊断率。参考资料:
Accurate proteome-wide missense variant effect prediction with AlphaMissense. Science. 2023 Sep 22;381(6664):eadg7492.
doi: 10.1126/science.adg7492.
https://www.science.org/doi/10.1126/science.adj8672
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢