- 简介蛋白质语言模型(PLMs)已经成为预测蛋白质编码变异的功能影响和临床意义的性能强大且可扩展的工具,但它们仍然落后于实验精度。在这里,我们提出了一种新的微调方法,使用来自深度突变扫描(DMS)测定的变异效应实验图谱和标准化的对数比率(NLR)头来提高PLMs的性能。我们发现在一个保留的蛋白质测试集中和来自ProteinGym和ClinVar的独立DMS和临床变异注释基准上有一致的改进。这些发现表明,DMS是一个有希望的序列多样性和监督训练数据的来源,可以提高PLMs对变异效应预测的性能。
- 图表
- 解决问题本文旨在提高蛋白质语言模型(PLMs)的预测性能,以预测编码变异的功能影响和临床意义,使用深度突变扫描(DMS)实验的变异效应实验数据进行微调。
- 关键思路本文提出了一种新的微调方法,使用标准化的对数比率(NLR)头部来改善PLMs的性能,并在保持的蛋白质测试集、ProteinGym和ClinVar的独立DMS和临床变异注释基准测试中获得了一致的改进。
- 其它亮点本文使用DMS实验数据来提高PLMs的性能,实验结果表明该方法在预测编码变异的功能影响和临床意义方面具有潜在的应用价值。论文开源了代码和数据集,为后续的研究提供了基础。
- 最近的相关研究包括:"Predicting the functional impact of protein mutations: application to cancer genomics"和"Interpretable deep learning for predicting the impact of non-coding variation on gene expression"。
沙发等你来抢
去评论
评论
沙发等你来抢