【论文标题】Prediction of RNA-protein interactions using a nucleotide language model
【作者团队】Keisuke Yamada, Michiaki Hamada
【发表时间】2022/03/08
【机 构】早稻田大学
【论文链接】https://doi.org/10.1101/2021.04.27.441365
【代码链接】https://github.com/kkyamada/bert-rbp
测序数据的积累使研究人员能够使用新的机器学习技术预测RNA序列和RNA结合蛋白(RBPs)之间的相互作用。然而,现有的模型往往难以解释,需要序列的额外信息。来自Transformer(BERT)的双向编码器表征是一种基于语言的深度学习模型,具有高度的可解释性。因此,基于BERT架构的模型有可能克服这种限制。本文提出了BERT-RBP作为预测RNA-RBP相互作用的模型,通过调整BERT架构在人类参考基因组上进行预训练。本文的模型在使用154个RBPs的eCLIP-seq数据时表现优于最先进的预测模型。详细的分析进一步显示,BERT-RBP可以仅从序列信息中识别转录本区域类型和RNA二级结构。总的来说,这些结果为BERT在生物背景下的微调机制提供了见解,并为该模型对其他RNA相关问题的适用性提供了证据。
上图展示了BERT-RBP的结构。输入的RNA序列首先被标记为3-mers,并用CLS和SEP标记进行修改。然后,每个标记被嵌入到一个768维的特征向量中。这些特征向量随后通过12个Transformer编码器层进行处理,其中每层包括12个自注意力头。最后一层的输出向量的CLS标记被进一步用于分类,以预测输入的RNA序列是否与RBP结合。
该模型的参考模型为DNABERT,其是一个在人类基因组上预训练的基于BERT的模型,在本文中被改造为RNA序列及其RBP结合特性的模型,DNABERT的参数被迁移到BERT-RBP模型并用于初始化。
上图展示了转录本区域类型的序列级注意分析结果。
A图使用BERT-基线、DNABERT和BERT-RBP对15种RNA结合蛋白(RBP)和四种区域类型的专门化程度进行了测量。专门化程度是用144个注意头中的相对注意水平的变异系数来评估的。
B-D图通过144个头中对CLS分析来衡量注意力情况。 BERT-基线和BERT-RBP在相同的TIAL1训练集上训练,DNABERT使用3'UTR注释进行分析。
创新点
1.本文应用在人类参考基因组上预训练的BERT模型来预测RNA序列的RBP结合特性。本文的模型被命名为BERT-RBP,超过了现有的最先进的模型以及权重参数被随机初始化的BERT基线模型,显示了在大型语料库上进行预训练的意义。
2.对微调模型的关注度分析进一步显示,BERT-RBP可以翻译生物语境,如转录本区域类型、转录本区域边界和RNA二级结构,仅来自RNA序列。因此,这项研究强调了BERT在预测RNA-RBP相互作用方面的强大能力,并提供了该架构对其他生物信息学问题潜在适用性的证据。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢