【标题】Cross-attention PHV: Prediction of human and virus protein-protein interactions using cross-attention–based neural networks

【作者团队】Sho Tsukiyama, Hiroyuki Kurata

【发表时间】2021/07/05

【机 构】九州工大

【论文链接】https://doi.org/10.1101/2022.07.03.498630

病毒感染是全世界的一个主要健康问题。例如,SARS-CoV-2的惊人传播速度导致了全球大流行。病毒将遗传物质纳入宿主基因组,劫持宿主细胞功能,如细胞周期和细胞凋亡。在这些病毒过程中,蛋白质-蛋白质相互作用(PPI)发挥了关键作用。因此,识别人类和病毒之间的PPI对于理解感染机制和宿主对病毒感染的免疫反应以及发现有效药物至关重要。诸如酵母双杂交实验和质谱分析等实验方法被广泛用于鉴定人与病毒的PPIs,但这些实验方法费时、费钱且费力。为了克服这一问题,本文通过实现交叉注意机制和一维卷积神经网络这两项关键技术,开发了一种新型的计算预测器,命名为Cross-attention PHV。交叉注意机制在提高预测和泛化能力方面非常有效。本文对word2vec生成的特征矩阵应用1D-CNN降低了计算负担,将蛋白质序列的可允许长度扩展到9000个氨基酸残基。Cross-attention PHV使用基准数据集的表现超过了现有的最先进的模型,并准确地预测了未知病毒的PPI,还预测了人类SARS-CoV-2的PPIs,AUC大于0.95。

上图展示了基于word2vec的编码的工作流程。(A) 氨基酸序列被转换为连续的4-聚体的排列。(B) UniProtKB/Swiss-Prot数据库中的氨基酸序列被转换为4-聚体的表示,并用于训练word2vec模型。(C) 使用训练好的word2vec模型将氨基酸序列中的每个4-mer转换为一个特征向量,由此产生的特征向量被串联成一个特征矩阵。

Cross-attention PHV的结构。交叉注意力PHV由三个子网络组成。基于word2vec(W2V)的人类和病毒的特征矩阵被输入到卷积嵌入模块。为了提取两个蛋白质序列之间的相互作用特征,在交叉注意模块中采用了多头注意层。最后,全局最大集合层产生的特征向量被串联起来,通过三个线性层计算出最终得分。

Fig. 8.

使用HuV-PPI测试数据集对PPI预测过程中产生的特征进行基于t-SNE的可视化。基于word2vec的特征矩阵、隐藏特征矩阵和特征向量都是从神经网络中检索出来的。通过对每个特征的最大值进行采样,将特征矩阵转换为向量。然后,人类和病毒的特征向量被连接起来。H1N1、H3N2和H5N1数据集的t-SNE图分别显示在左边、中间和右边。蓝色、黄色、绿色和红色标记分别表示假阳性、假阴性、真阴性和真阳性样本。

 

创新点

本文实现了两项关键技术:(1)交叉注意模块,相互考虑人类和病毒蛋白质的特征;(2)1D-CNN,将蛋白质序列的允许长度扩大到9000个残基。

本文在预测人类和病毒之间的PPI方面优于最先进的模型,并准确预测了未知流感病毒和SARS-CoV-2的PPI。

本文提取了负责预测PPI的关键特征,并区分了人类和病毒蛋白质之间的分类学和进化差异。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除