【论文标题】Representation Learning for Networks in Biology and Medicine: Advancements, Challenges, and Opportunities

【作者团队】Michelle M. Li, Kexin Huang, Marinka Zitnik

【发表时间】2021/04/11

【机 构】哈佛医学院, 美国

【论文链接】https://arxiv.org/abs/2104.04883v1

【推荐理由】生物医学领域表征学习的最新综述

 

随着表征学习在模型预测能力和数据洞察力方面取得的显著成功,其技术迅速扩展到各种网络的建模、分析和学习等方面。其中就包括生物医学网络,即用于描述蛋白质相互作用到疾病等各层次医疗系统和科学知识的通用描述方法。这篇综述整理了那些在可以为表征学习提供概念基础的生物学和医学网络的长期原则,并解释其当前的成功和局限性以为未来的发展提供参考。作者在文中综合整理了一系列利用拓扑特征将网络嵌入到紧凑的向量空间中的算法,包括GNN预训练等。表征学习技术正在成为识别复杂性状背后的因果变异、拆解单细胞的行为及其对健康的影响,以及用安全有效的药物诊断和治疗疾病的关键。

上图为生物医学网络的一种范式。表征学习方法将对图提取特征,其中GNN方法是通过多层图卷积,而网络传播方法则是通过追踪信息在图形中的流动的随机过程来实现的。右图显示了围绕节点 ?的2-hop邻域,它说明了信息是如何沿着边传播的在邻域中,进行变换,最后在节点?处聚合,得出?的embedding。

上图为本文的主题内容即其对应的数据类型,主要包括如下四方面,相应的应用如下展示:

  • 分子层面,阐明蛋白质结构、相互作用和功能
  • 基因层面,驱动疾病的全基因组关联进展;
  • 治疗层面,图表征学习模型能够利用这些网络来预测药物-药物、药物-靶标和药物与疾病的关联。
  • 医疗保健层面,针对精准医疗的患者与医疗系统的互动,以电子健康记录和医疗影像为代表

  1. 分子层面的应用,细胞类型感知的蛋白质表示学习。给定由scRNA-seq数据生成的差异表达基因,在PPI网络上进行多标签节点分类,所产生的蛋白质embedding进行聚类,以反映细胞类型的特异性
  2. 基因层面的应用,基于子图的疾病分类。给定一个与疾病相关的表型列表和人类表型本体(HPO)的网络,将疾病的具体特征作为子图和底层网络输入到图表征学习模型中,然后,该模型会根据疾病类型对每个子图进行分类。
  3. 治疗层面的应用,多模态基于特异细胞系的药物相互作用预测。给定一个药物蛋白网络和细胞系药物扰动数据,根据从细胞系药物扰动计算出的相互作用分数构建细胞系特异性PPI网络,接下来将这些网络输入到图表征学习模型中进行迁移学习,预测每个细胞系特异网络中的药物-药物相互作用(DDI)。
  4. 医疗健康层面的应用,将健康数据整合到知识图谱中以预测病人的治疗情况。给定一个与患者相关的ICD代码列表,在一个多模态生物医学知识图中创建新的患者节点,其边连接到ICD代码,将得到的整合生物医学知识图谱输入到图表示学习模型中,然后预测患者和药物之间的有关有效的概率。

 

总体上来说,组学,知识图谱,GNN等等多方面数据工具的整合加速了生物研究,可以让我们更全面地对疾病或药物的潜在分子机制进行可解释的研究。

内容中包含的图片若涉及版权问题,请及时与我们联系删除