- 简介零样本单细胞细胞类型注释旨在仅依据给定的一组表达基因,无需任何训练即可判定单个细胞的类型。现有的基于知识图谱的检索增强生成(RAG)方法通常以源实体为起点进行扩展检索,并依赖大语言模型(LLM)的迭代式推理。然而,在该任务设定下,每个查询均包含数十至数百个基因,其中任意单个基因均不具备决定性作用,而细胞类型标签仅能从这些基因的集体共现模式中涌现出来。此类“超实体”(hyper-entity)查询从根本上挑战了传统基于局部、逐实体展开的探索策略——后者从单个基因出发进行推理,因而导致可扩展性差,且LLM调用开销巨大。为此,我们提出GATHER(面向超实体检索的图感知汇聚式遍历方法),一种以“汇聚”为核心思想、专为超实体查询定制的检索器。GATHER执行全局多源图遍历,识别出拓扑意义上的“汇聚节点”——即能被大量输入基因共同到达的图节点。这些汇聚节点作为高信息量的超实体,有效捕捉了多个基因之间的协同效应。通过引入节点重要性与路径重要性双重评分机制,GATHER在检索阶段完全无需调用LLM,即可自主筛选出最具信息量的证据。我们在自建的以细胞为中心的生物知识图谱(VCKG)上实现GATHER,并在Immune和Lung两个数据集上对其进行了评估。结果表明,GATHER显著优于多个强基线知识图谱RAG方法(ToG、ToG-2、RoG、PoG),分别取得27.45%和59.64%的精确匹配准确率,且每样本仅需调用一次LLM;相较之下,各KG-RAG基线方法每样本需调用2–61次LLM。我们的实验结果表明:汇聚节点能够将多实体信号高效压缩为紧凑、高信息密度的证据单元,其单位证据所承载的信息量远超传统的多跳路径,从而为依赖局部、逐实体推理的现有范式提供了一种高效、全局的新替代方案。
-
- 图表
- 解决问题零样本单细胞细胞类型注释问题:在无训练数据条件下,仅基于数十至数百个共表达基因(即‘超实体’查询)准确推断细胞类型。该问题挑战传统知识图谱检索方法——现有RAG方法依赖单基因起点的局部迭代扩展和LLM推理,无法有效建模基因集合的协同信号,导致可扩展性差、LLM调用成本高。
- 关键思路提出GATHER框架:摒弃逐基因局部探索,转而进行全局多源图遍历,识别能被大量输入基因共同到达的‘拓扑收敛节点’(如共享通路、功能模块或细胞状态枢纽),将其作为高信息密度的‘超实体’证据;全程无需LLM参与检索,通过图结构(节点中心性、路径重要性)自动打分筛选证据。
- 其它亮点在自建细胞中心知识图谱VCKG上实现端到端高效检索;仅需1次LLM调用/样本(基线需2–61次),在Immune(27.45%)和Lung(59.64%)数据集上Exact-Match准确率显著超越ToG、ToG-2、RoG、PoG等KG-RAG强基线;实验设计严谨,含消融验证收敛机制有效性;论文未明确提及开源代码;未来工作可拓展至跨组织泛化、动态图更新、及与foundation model for biology(如Nucleotide Transformer)联合优化。
- ToG: Tree-of-Graphs for Knowledge Graph Reasoning (NeurIPS 2023); RoG: Reasoning over Graphs with Large Language Models (ICLR 2024); PoG: Path-of-Graphs for Interpretable KGQA (ACL 2024); CellTypist: Zero-shot cell type annotation via pre-trained classifiers (Nature Methods 2022); scGPT: A foundation model for single-cell genomics (Cell Systems 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流