【论文标题】DNA language models are powerful zero-shot predictors of non-coding variant effects

【作者团队】Gonzalo Benegas, Sanjit Singh Batra, Yun S. Song

【发表时间】2022/08/23

【机 构】加州伯克利

【论文链接】https://doi.org/10.1101/2022.08.22.504706

【代码链接】https://github.com/songlab-cal/gpn

传统上,突变效应预测主要是在有标签的数据上训练监督模型。自然语言处理的最新进展表明,通过对大量无标签数据的预训练,在不同的任务中获得了巨大的收益。在生物领域对大量蛋白质序列数据库的无监督预训练已被证明是提取关于蛋白质的复杂信息的一种有效方法,这样的模型已经被证明可以以零样本的方式学习编码区的突变效应。本文在此介绍GPN(基因组预训练网络),它可以仅使用基因组DNA序列的无监督预训练来学习非编码DNA的突变效应,还能够在没有任何监督的情况下学习到基因结构和DNA基序。本文通过展示它在拟南芥中达到最先进的性能来证明其效用,拟南芥是植物生物学的模型生物。尽管只在DNA序列上进行了训练,GPN的性能超过了在拟南芥功能基因组学数据上训练的DeepSEA模型。此外,仅在单一基因组上训练的GPN优于广泛使用的保守度打分,如phyloP和PhastCons,这些评分依赖于18个密切相关物种的全基因组比对。GPN对DNA序列的内部表示能够准确区分基因组区域,如内含子、非翻译区和编码序列。GPN预测的置信度也可用于阐明调控语法,如转录因子结合基序。本文的研究结果为建立最先进的非编码突变效应预测铺平了道路,即使在没有昂贵的功能基因组学数据的情况下,仅使用其基因组序列就可以为任何给定的物种提供预测。

上图展示了GPN基因组预训练网络的架构。
输入是一个512bp的DNA序列,其中15%位置被遮蔽了,任务是预测被遮蔽位置的核苷酸,在突变效应预测过程中,只有突变位置被遮蔽。序列通过卷积神经网络进行处理,形成每个位置的高维嵌入,然后最后一层在每个被遮蔽的位置输出四个核苷酸概率,该模型是在参考序列上用交叉熵损失进行训练的。GPN突变效应预测得分被定义为突变等位基因和参考等位基因之间的对数似然比。

图中的参数:L:窗口长度,碱基对。D:嵌入维度。REF:参考等位基因。ALT:突变等位基因。

上图展示了基因组窗口的无监督聚类,显示了其对于数据含义的对应。
(a) 模型嵌入的UMAP可视化。(b) 从平均嵌入中得到的无监督的莱顿集群。(c) 每个簇中的窗口数。(e)在多数基因间聚类中,与重复性元素重叠的窗口的比例。(d)大多数基因间聚类中到最近的TSS的距离。

上图展示了从模型预测中得到的序列Logo,都显示了其与已知Logo的良好对应
每个位置都被独立遮蔽,四个核苷酸上的模型分布被用来构建一个序列Logo。每个字母的高度与它的概率成正比,每个位置的总高度等于2减去分布的熵。(a) AT5G11090的起始密码子。(b) AT5G11050的起始密码子。(c) 拼接供体。(d) 剪接供体。(e) 先前由FunTFBS注释的转录因子结合点。

上图展示了突变效应预测结果。
(a) 不同突变类型的平均GPN得分,针对100kb区域内所有可能的单核苷酸多态性(SNPs)。本文观察到,最低的GPN分数被分配给明显破坏开放阅读框的突变,如剪接供体、剪接受体和开始丢失的突变,这与众所周知的致病性概念一致。本文还观察到,错义突变的GPN分数比同义突变低。

(b) 在1001基因组(5号染色体)中观察到的SNP的GPN评分的每个百分位数的平均等位基因频率。可以观察到1001基因组中的GPN分数和观察到的等位基因频率之间存在单调关系。例如,GPN得分最低的1%的SNPs的平均等位基因频率为1%,而GPN得分最高的1%的SNPs的平均等位基因频率为5%

(c) 会合表和赔率显示罕见突变中致病性GPN分数的富集。当定义为最低的0.1%的GPN分数时,罕见的突变在致病性分数中富集2.73倍。AC为等位基因数。

(d) x轴对应的是用于定义致病性的模型得分阈值。y轴对应的是各种模型在不同突变体类型中获得的OR(odd ratio)。随着本文提高对突变体致病的严格程度(从最低的10%到最低的0.1%分数),在考虑的大多数模型中,罕见突变体富集的几率增加。在调用致病性的最严格的截止点,对所有突变进行评估,与其他模型相比,GPN取得了更高的赔率。

这表明GPN可能是一个更好的预测全基因组非编码突变的致病性或缺失性的指标。

内容中包含的图片若涉及版权问题,请及时与我们联系删除