DRUGONE
单细胞大语言模型(scLLMs)能够从大规模单细胞图谱中学习丰富的生物学知识,但在“上下文外”应用场景中,其零样本预测往往不稳定。研究人员提出了一个参数高效微调框架 scPEFT,通过在冻结主干模型参数的前提下,引入低维、可学习的适配器,实现对特定任务和生物情境的高效适配。scPEFT 在显著减少可训练参数和 GPU 内存开销的同时,有效缓解了灾难性遗忘问题。在多种疾病条件、跨物种迁移以及未充分表征的细胞群体任务中,scPEFT 均显著优于零样本模型和传统全参数微调方法。此外,通过注意力机制分析,scPEFT 能够识别疾病条件下的关键基因与细胞状态,为情境感知的单细胞解析提供了一种高效而可解释的解决方案。

单细胞测序技术极大推动了对细胞异质性与功能状态的理解,但其数据分析仍面临批次效应、数据偏倚及生物情境复杂多变等挑战。近年来,受自然语言处理领域基础模型成功的启发,研究人员提出了将基因表达视作“生物语言”的单细胞大语言模型。这类模型在大规模图谱上预训练后,具备强大的表示能力。
然而,scLLMs 在面对未见疾病状态、跨物种应用或罕见细胞群体时,往往表现不稳。传统的全参数微调虽然可以提升性能,但计算成本高昂,并易导致预训练知识被覆盖。如何在资源受限条件下高效、稳健地适配 scLLMs,成为制约其广泛应用的关键问题。
方法
scPEFT 通过在 scLLMs 的关键模块中引入参数高效的适配器,实现对模型的情境化调整。研究人员在冻结原有模型参数的基础上,仅更新低维适配器参数,从而在独立子空间中学习“模型增量”。scPEFT 支持多种适配器形式,包括基因标记适配器、前缀适配器、低秩适配(LoRA)以及编码器适配器,可灵活组合以适应不同任务需求。这种设计显著降低了可训练参数规模,减少了计算与内存开销,同时保留了 scLLMs 的原始生物学知识。

图 1|scPEFT 框架。
结果
疾病条件下的细胞类型识别性能
在非小细胞肺癌、多发性硬化和 COVID-19 等疾病数据集中,scPEFT 在多种 scLLM 主干模型上均显著提升了细胞类型识别准确率。与全参数微调相比,scPEFT 在避免灾难性遗忘的同时,对罕见细胞类型具有更强的识别能力。

图 2|疾病条件下的细胞类型识别结果。
参数效率与计算开销分析
scPEFT 仅需原模型 0.05%–4% 的可训练参数,并将 GPU 内存占用降低至全参数微调的一半以下。在不同适配器配置和超参数设置下,scPEFT 均表现出较强的稳定性,对训练数据规模的依赖显著低于传统微调方法。

图 3|参数效率与资源消耗对比。
疾病相关细胞状态基因的注意力解析
通过分析模型注意力分布,scPEFT 能够在疾病条件下识别与特定细胞状态相关的关键基因。与原始模型和全参数微调模型相比,scPEFT 在保持细胞状态特异性的同时,更好地平衡了条件敏感性与生物学合理性。

图 4|基于注意力机制的细胞状态相关基因分析。
跨物种迁移能力评估
研究人员将 scPEFT 应用于小鼠、猕猴及秀丽隐杆线虫数据集。结果表明,scPEFT 能够利用同源基因信息有效迁移人类预训练模型,在跨物种细胞类型识别任务中显著优于全参数微调方法,并在零样本设置下保持较强鲁棒性。

图 5|跨物种迁移学习结果。
无监督细胞群体发现与下游任务
在无监督条件下,scPEFT 能够解析复杂的骨髓与 CD34⁺ 细胞群体结构,识别潜在的发育中或过渡态细胞亚群。此外,在转录因子识别、批次校正和基因扰动预测等任务中,scPEFT 在性能与计算效率之间实现了良好平衡。

图 6|无监督细胞群体解析与下游任务表现。
讨论
scPEFT 为单细胞大语言模型的高效适配提供了一种实用而通用的解决方案。通过将任务相关调整限制在低维子空间中,scPEFT 在显著降低计算成本的同时,有效缓解了灾难性遗忘问题,并提升了模型在复杂生物情境下的泛化能力。其模块化设计使其能够适配不同 scLLM 主干,并支持监督与无监督分析。
未来,scPEFT 有望通过更精细的同源基因映射策略、跨模态适配以及任务特异化优化,进一步扩展其在单细胞生物学和系统医学中的应用潜力。
整理 | DrugOne团队
参考资料
He, F., Fei, R., Krull, J.E. et al. Harnessing the power of single-cell large language models with parameter-efficient fine-tuning using scPEFT. Nat Mach Intell (2025).
https://doi.org/10.1038/s42256-025-01170-z

内容为【DrugOne】公众号原创|转载请注明来源
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢