研究细胞内信号传导中两种蛋白质之间可能的相互作用在传统生物实验室中是一项昂贵且费力的过程,因此,科学家们已经实施了多种计算机方法来缩小未来实验验证的候选范围。
重新表述网络理论领域的问题,蛋白质的集合可以表示为网络的节点,而它们之间的相互作用可以表示为边。由此产生的蛋白质-蛋白质相互作用(PPI)网络,能够使用链接预测技术来发现新的可能连接。因此,科学家的目标是利用生成机器学习模型,为 PPI 网络中的链接预测任务提供一种新颖的方法。
塞梅维什大学的研究人员开发了一个软件,用于利用机器学习在 PPI 网络中进行链路预测。该软件的评估首次证明了以 PPI 网络的原始拓扑特征为条件的 cGAN 模型是 PPI 预测问题的适用解决方案,而不需要通常不可用的分子节点属性。
这是一个由两个模块组成的工具,即数据处理框架和机器学习模型。作为数据处理,他们使用改进的广度优先搜索算法来扫描网络并提取诱导子图,作为模型的类似图像的输入数据。作为机器学习,采用基于 Wasserstein 距离损耗改进梯度惩罚的,条件生成对抗网络(cGAN)模型,将数据处理中的组合表示作为输入,并训练生成器预测所提供的诱导子图中可能的未知边。
他们的链接预测工具通过计算接收器操作特征下的面积、精确召回曲线和归一化贴现累积增益,对来自 STRING 数据库的五种不同物种的蛋白质-蛋白质相互作用网络进行了评估。测试运行在所有调查物种上产生了 AUROC = 0.915、AUPRC = 0.176 和 NDCG = 0.763 的平均结果。
该研究以「Efficient link prediction in the protein–protein interaction network using topological information in a generative adversarial network machine learning model」为题,于 2022 年 2 月 19 日发布在《BMC Bioinformatics》。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢