宾大 | MutFormer : 用于预测致病性错义突变的上下文依赖Transformer

【论文标题】MutFormer: A context-dependent transformer-based model to predict pathogenic missense mutations

【作者团队】Theodore Jiang, Li Fang, Kai Wang

【发表时间】2021/10/27

【机构】宾州儿童医院、宾大

【论文链接】https://doi.org/10.1101/2021.10.25.465689

【代码链接】https://github.com/CaiLiLab/MuRaL

错义突变是一种点突变，导致蛋白质序列中的一个氨基酸被替换。目前，错义突变约占导致人类遗传性疾病的已知突变体的一半，但准确预测错义变体的致病性仍然是一个挑战。深度学习的最新进展表明，Transformer模型在序列建模方面特别强大。在这项研究中，本文介绍了MutFormer，一个用于预测致病性错义变异的基于BERT的模型。本文对MutFormer进行了蛋白序列和由常见遗传变异导致的替代蛋白序列的预训练，MutFormer可以直接分析蛋白质序列，不需要任何同源信息或额外数据。本文测试了不同的微调方法来预测致病性，MutFormer能够在SNPs的致病性预测方面与目前的方法相匹配或优于其表现。

上图展示了Mutformer的架构，首先，一个由position、labe和token嵌入组成的系统被用来对输入标记进行矢量化；接下来，两个卷积层学习适应性词汇；之后，一个具有自注意力的双向Transformer体考虑了上下文并学习了蛋白质序列的模式，输出嵌入被用于标记或序列级分类。

上图展示了本文中的不同微调方法。

A）每个残基分类。输入是一个可能包含突变体的蛋白质序列。每个残基都有一个良性/病理性的标签，良性变体和与参考序列相同的残基被标记为良性。微调的任务是预测每个氨基酸的标签。这与NLP中的标记分类问题（如命名实体识别）相似。

B) 单一序列分类。输入是一个可能含有致病变体的蛋白质序列。最后一层的[CLS]标记的嵌入被用来预测该序列是否包含致病变体。这与NLP中的句子分类问题（如情感分析）类似。

C) 序列对分类。输入是一对两个序列：一个参考蛋白序列和一个变异的蛋白序列（中间有一个良性或致病的变体）。最后一层中[CLS]标记的嵌入被用来预测突变的序列是否包含致病变体。这与NLP中的句子对分类问题（如句子相似性）类似。

上图显示了MutFormer与现有方法的ROC曲线性能比较。

由于成对的序列分类表现最好，本文专注于这种微调方法并测试了不同的超参数。MutFormer在测试集上的最佳AUC得分是0.933，这是通过对MutFormer12L（最优模型）进行微调，使用批次大小为32，最大输入序列长度为256实现的。使用相同的测试集，本文将本文的模型与现有的各种方法进行比较，包括一些最新的研究，如MVP和VARITY。本文将每种方法的得分归一化为0和1之间的范围，并绘制ROC曲线。如果一种方法没有提供分数，本文就认为对一个突变的预测是错误的。MutFormer优于多种广泛使用的方法，包括SIFT、PolyPhen、MutationTaster、FATHMM、CADD以及本文以前的方法MetaSVM和MetaLR。MVP是唯一取得比MutFormer更高的AUC的方法。
不过，MVP使用了多种手工制作的特征（如GC含量、保存分数、基因突变不耐受分数），并纳入了以前11种方法的致病性分数。MutFormer却只将一对蛋白质序列（参考序列和突变序列）作为唯一输入。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

宾大 | MutFormer : 用于预测致病性错义突变的上下文依赖Transformer

评论列表

评论