【论文标题】Integrating convolution and self-attention improves language model of human genome for interpreting non-coding regions at base-resolution

【作者团队】Meng Yang, Haiping Huang, Lichao Huang, Nan Zhang, Jihong Wu, Huanming Yang, Feng Mu

【发表时间】2021/09/06

【机 构】华大、复旦

【论文链接】https://doi.org/10.1101/2021.09.06.459087

【代码链接】https://github.com/melobio/LOGO

非编码基因组的解释仍然是人类遗传学的一个未解决的挑战,因为在所有条件下详尽地注释生化活性元素是不现实的。最近出现了基于深度学习的计算方法来帮助解释非编码区域。本文提出了LOGO(Language of Genome),一个基于自注意力的预训练语言模型,它只包含2个自注意力层,有100万个参数,是一个非常轻的架构,应用自监督技术来学习未标记的人类参考基因组的双向表征。LOGO针对序列标签任务进行了微调,并通过替代等位基因的特殊输入编码方案和增加卷积模块,进一步扩展到变体任务。实验表明,LOGO在启动子识别方面取得了15%的绝对改进,在增强子-启动子相互作用预测方面取得了高达4.5%的绝对改进。LOGO在数以千计的染色质特征上表现出最先进的多任务预测能力,与监督模型DeepSEA相比仅有3%的差距,与最近基于BERT的人类基因组语言模型相比有1%的差距。对于等位基因效应的预测,由一维卷积引入的定位显示了对与人类疾病相关的非编码变体进行优先排序的敏感性和特异性。此外,本文应用LOGO来解释2型糖尿病(T2D)的GWAS信号,并推断潜在的调节机制。本文在自然语言和人类基因组之间做了一个概念上的类比,并证明LOGO是一个准确、快速、可扩展和稳健的框架。

上图展示了LOGO的框架,在hg19人类基因上进行预训练随后在下游任务上进行微调。LOGO使用Transformer架构中的ALBERT并进行了轻量化处理。输入基因序列以k-mer形式输入并被投影到嵌入上,并在诸如启动子识别,增强子-启动子相互关系预测(EPI)和染色质特征预测等任务上应用。

内容中包含的图片若涉及版权问题,请及时与我们联系删除