GATHER: Convergence-Centric Hyper-Entity Retrieval for Zero-Shot Cell-Type Annotation

向作者提问

NEW

简介

零样本单细胞细胞类型注释旨在仅依据给定的一组表达基因，无需任何训练即可判定单个细胞的类型。现有的基于知识图谱的检索增强生成（RAG）方法通常以源实体为起点进行扩展检索，并依赖大语言模型（LLM）的迭代式推理。然而，在该任务设定下，每个查询均包含数十至数百个基因，其中任意单个基因均不具备决定性作用，而细胞类型标签仅能从这些基因的集体共现模式中涌现出来。此类“超实体”（hyper-entity）查询从根本上挑战了传统基于局部、逐实体展开的探索策略——后者从单个基因出发进行推理，因而导致可扩展性差，且LLM调用开销巨大。为此，我们提出GATHER（面向超实体检索的图感知汇聚式遍历方法），一种以“汇聚”为核心思想、专为超实体查询定制的检索器。GATHER执行全局多源图遍历，识别出拓扑意义上的“汇聚节点”——即能被大量输入基因共同到达的图节点。这些汇聚节点作为高信息量的超实体，有效捕捉了多个基因之间的协同效应。通过引入节点重要性与路径重要性双重评分机制，GATHER在检索阶段完全无需调用LLM，即可自主筛选出最具信息量的证据。我们在自建的以细胞为中心的生物知识图谱（VCKG）上实现GATHER，并在Immune和Lung两个数据集上对其进行了评估。结果表明，GATHER显著优于多个强基线知识图谱RAG方法（ToG、ToG-2、RoG、PoG），分别取得27.45%和59.64%的精确匹配准确率，且每样本仅需调用一次LLM；相较之下，各KG-RAG基线方法每样本需调用2–61次LLM。我们的实验结果表明：汇聚节点能够将多实体信号高效压缩为紧凑、高信息密度的证据单元，其单位证据所承载的信息量远超传统的多跳路径，从而为依赖局部、逐实体推理的现有范式提供了一种高效、全局的新替代方案。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

零样本单细胞细胞类型注释问题：在无训练数据条件下，仅基于数十至数百个共表达基因（即‘超实体’查询）准确推断细胞类型。该问题挑战传统知识图谱检索方法——现有RAG方法依赖单基因起点的局部迭代扩展和LLM推理，无法有效建模基因集合的协同信号，导致可扩展性差、LLM调用成本高。
关键思路

提出GATHER框架：摒弃逐基因局部探索，转而进行全局多源图遍历，识别能被大量输入基因共同到达的‘拓扑收敛节点’（如共享通路、功能模块或细胞状态枢纽），将其作为高信息密度的‘超实体’证据；全程无需LLM参与检索，通过图结构（节点中心性、路径重要性）自动打分筛选证据。
其它亮点

在自建细胞中心知识图谱VCKG上实现端到端高效检索；仅需1次LLM调用/样本（基线需2–61次），在Immune（27.45%）和Lung（59.64%）数据集上Exact-Match准确率显著超越ToG、ToG-2、RoG、PoG等KG-RAG强基线；实验设计严谨，含消融验证收敛机制有效性；论文未明确提及开源代码；未来工作可拓展至跨组织泛化、动态图更新、及与foundation model for biology（如Nucleotide Transformer）联合优化。
相关研究

ToG: Tree-of-Graphs for Knowledge Graph Reasoning (NeurIPS 2023); RoG: Reasoning over Graphs with Large Language Models (ICLR 2024); PoG: Path-of-Graphs for Interpretable KGQA (ACL 2024); CellTypist: Zero-shot cell type annotation via pre-trained classifiers (Nature Methods 2022); scGPT: A foundation model for single-cell genomics (Cell Systems 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问