- 简介药物发现是一个复杂且耗时的过程,需要识别和验证新的治疗候选物。利用大规模生物医学知识图谱(KGs)的计算方法为加速这一过程提供了有希望的解决方案。然而,由于图遍历的复杂性,从大规模KGs中提取有意义的见解仍然具有挑战性。现有的基于子图的方法主要针对图神经网络(GNNs),这使得它们与其他模型(如大型语言模型(LLMs))不兼容。我们引入了K-Paths,这是一种检索框架,可以从KGs中提取结构化、多样化且生物学上有意义的路径。通过整合这些路径,LLMs和GNNs能够有效预测未观察到的药物-药物和药物-疾病相互作用。与传统的路径排名方法不同,K-Paths检索并将路径转换为LLMs可以直接处理的结构化格式,从而促进可解释的推理。K-Paths采用了一种多样性感知的Yen算法变体,以检索交互查询中实体之间的K条最短无环路径,优先考虑生物学上相关和多样化的关联。我们在基准数据集上的实验表明,K-Paths提高了Llama 8.1B在药物再利用上的零样本F1分数12.45个百分点,在相互作用严重性预测上提高了13.42个百分点。我们还展示了Llama 70B分别获得了6.18和8.46个百分点的F1分数提升。此外,K-Paths提高了最先进的GNN模型EmerGNN的监督训练效率,通过将KG大小减少90%的同时保持强大的预测性能。除了其可扩展性和效率外,K-Paths独特地弥合了KGs和LLMs之间的差距,为预测的相互作用提供了可解释的理由。这些能力表明,K-Paths是高效数据驱动药物发现的宝贵工具。
-
- 图表
- 解决问题该论文试图解决从大规模生物医学知识图谱(KGs)中提取有意义见解以加速药物发现过程的问题。特别是,它旨在克服现有基于子图的方法仅适用于图神经网络(GNNs),而不适用于大型语言模型(LLMs)的局限性。这是一个亟待解决的重要问题,因为现有的方法无法充分利用LLMs的强大处理能力来加速药物发现。
- 关键思路关键思路是引入K-Paths框架,该框架可以从KGs中提取结构化、多样化且生物学上有意义的路径,并将这些路径转换为LLMs可以直接处理的格式。这使得LLMs和GNNs能够有效预测未观察到的药物-药物和药物-疾病相互作用。与传统的路径排名方法不同,K-Paths使用了一种多样性感知的Yen算法变体,以检索实体之间的K条最短无环路径,优先考虑生物学相关性和多样性。
- 其它亮点1. K-Paths显著提高了LLM在零样本学习任务中的性能,例如Llama 8.1B在药物再利用和相互作用严重性预测上的F1分数分别提高了12.45和13.42点。 2. 对于更大的Llama 70B模型,也实现了6.18和8.46点的F1分数提升。 3. K-Paths还提高了EmerGNN等GNN的监督训练效率,通过减少90%的KG大小而保持强大的预测性能。 4. 论文提供了可解释的推理路径,这对于理解预测结果至关重要。 5. 实验使用了多个基准数据集,展示了K-Paths的广泛适用性和有效性。代码是否开源未明确提及,但值得进一步关注。
- 最近在这个领域中,相关的研究包括: 1. 使用图神经网络进行药物发现的研究,如《Graph Neural Networks for Drug Discovery and Development》。 2. 结合知识图谱和深度学习的方法,如《Knowledge Graph Embedding for Drug Repositioning》。 3. 利用大型语言模型进行生物医学文本挖掘的工作,如《Biomedical Text Mining with Large Language Models》。 4. 提出新的路径检索算法以改进知识图谱的应用,如《Diverse Path Retrieval in Knowledge Graphs for Improved Predictive Performance》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流