技术的进展为我们提供了大规模的生物数据,但要如何从中获得对生物学机制的理解?一方面我们可以使用来自科学文献的先验知识,但这种知识驱动方法往往基于特定的情境,不适合进行因果关系预测;另一方面,纯数据驱动的推断方法专注于创建特定情境下的预测模型,却很难进行有意义的生物学解释。
2021年6月,发表于Cell 旗下Patterns 杂志的论文“蛋白质组中的因果相互作用:分子数据遇见通路知识”,介绍了一款名为 CausalPath 的因果推断工具,能够结合新的测量结果与先验知识,推断蛋白质组数据中因果信号的相互作用。这种方法模仿了生物学家用先验知识解释新的实验数据的传统方法,但可以在数十万反应的规模上进行。以下是 Patterns 杂志对这项工作的评论。
论文题目:
Causal interactions from proteomic profiles: Molecular data meet pathway knowledge
论文链接:
https://www.cell.com/action/showPdf?pii=S2666-3899%2821%2900083-0
最近,研究人员开发了几种新方法来弥合知识驱动方法与数据驱动方法之间的差异。这些“因果推断工具”将先验知识网络(如信号通路或基因调控网络)与基因组规模的基因表达或蛋白质组学测量连接起来,并使用统计工具来识别情境化的、特定于样本的信号网络变化趋势,从而解释观测数据的因果效应。相比于不同基准的经典知识驱动方法,这些方法已被证明能够更好地估计通路活性变化。
巴布尔等人为这个后来的工具集添加了一种有趣的新方法,能够用来区分简单的相关性和较为复杂的因果性。CausalPath 方法使用来自路径共用数据库(Pathway Commons database)的激酶/磷酸酶底物*和转录因子所调节的基因关系,来创建图形模式。
CausalPath 方法还使用基于数据标签排列的方法检验结果的统计显著性。在他们的论文中,作者测试了不同癌症相关数据集的方法,成功地从蛋白质组学数据中识别了不同配体和药物的作用机制。
CausalPath 方法结合来自科学文献中已有的关于生物通路的详细知识与最新获得的蛋白质组学和其他分子测量数据,生成机制模型来解释观测到的变化如何彼此关联。
巴布尔等人的研究结果还强调了将正确类型的先验知识与相对应的组学模式结合使用的重要性。当他们将基因调控网络与蛋白质组学数据结合使用时,推断出的因果网络在统计学意义上并不显著,而将相同的先验知识网络与基因表达数据结合使用,会导致更加显著的因果关联。
这些思考以及巴布尔等人的研究结果,共同表明了一个至关重要的问题——需要使用匹配的先验知识网络和数据,例如:基因调控网络与转录组学,信号网络与蛋白质组学。正确整合不同类型的先验知识网络和数据类型,也有望能够识别多组学数据集中的因果关系。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢