社区供稿 | Hugging Face x 北京中关村学院等机构联合发布生成式基因组大模型Carbon：一场关于“生命语言”的范式革命

🧬一个时代正在加速到来。

从Evo系列以单核苷酸分辨率开启长上下文基因组建模，到AlphaGenome将调控变异（Regulatory Variant）效应预测推向新高度，AI与基因组学的交叉正在点燃全球生命科学的新引擎。DNA —— 这本写满40亿年进化密码的“天书”，迎来了它的翻译官。

然而在整个领域飞速发展的背后，伴随而来的是模型参数越堆越高，上下文长度越卷越长，算力门槛令人望而却步。

今天，北京中关村学院与国际知名开源社区Hugging Face、意大利TIGEM及那不勒斯费德里科二世大学，用实际行动作出了回应——

生成式基因组大模型Carbon，正式开源。

我们带来的不仅仅是一个模型，更是一套全开放的技术普惠方案，一种科学信念，以及一条通往“生命语言GPT”的新路径。

破局：当多数人追逐“更大”，我们选择“更懂”

Carbon家族包含Carbon-500M、Carbon-3B、Carbon-8B三个版本。我们的旗舰模型Carbon-3B（30亿参数）在8大零样本DNA任务上，全面匹敌70亿参数的Evo2-7B；而Carbon-8B更进一步，在同等参数量下全面超越了Evo2-7B级别的表现。

但真正的震撼在于效率：Carbon-3B的运行速度是Evo2-7B的275倍。在单张A100上处理一个典型人类基因（约27,000个碱基对），Carbon仅需1.5秒，Evo2-7B需要超过400秒；若扩展至全人类基因组规模，这意味着不到2天vs. 超过1.5年的效率之差。

为什么一个“小”模型能有如此能量？

因为Carbon的强大，源于对“DNA序列建模”这个问题的深刻思考。

基于这一认知，Carbon团队在看似“朴实无华”的标准Transformer架构上，注入了三项直指问题本质的创新：

数据：从“堆量”到“提质”

基因组不是人类文本，它充斥着大量弱约束的“进化噪音”。Carbon从6万亿个碱基对的原始数据中，摒弃了“堆量”的传统观念，创新性地筛选高功能密度区域，将训练信号的有效生物浓度提升近一个数量级。我们认为数据不能只是量大，更要质高 ——这是 Carbon 对基因组预训练的核心洞察。

分词：化解效率与精度的"核心冲突"

单核苷酸分辨率与计算效率，是DNA大模型长期存在的“核心冲突”：逐碱基建模精度高却算力爆炸，粗粒度分词提速又必牺牲碱基敏感度。Carbon以非重叠 6-mer分词将序列压缩6倍，注意力成本最高降低36倍；更关键的是FNS算法，通过概率边缘化从6-mer词元中精确还原每个碱基（A/C/G/T）的独立概率。六碱基一步的效率，单碱基一步的精度，从此兼得。

训练：损失函数切换，攻克“损失阶梯”

团队首次系统揭示了DNA大模型训练中的“损失阶梯”现象——标准交叉熵在训练后期会因DNA序列的固有模糊性而陷入数值不稳定。Carbon在适当时机从 CE切换至FNS，不仅实现了训练稳定性与核苷酸级精度的双重突破，更消除了低精度（BF16）推理下的性能劣化。

普惠：从超算中心，到每一个人

Carbon的价值观是技术普惠。我们将Carbon完全开放——模型、数据、代码、评估套件，全部在Apache 2.0协议下发布。不止于一个高性能模型，更代表着一种信念 —— 我们希望推动这个领域的协同发展。

得益于极致的架构与分词效率优化，Carbon-3B甚至可以在MacBook等消费级硬件上实时运行，这意味着：

• 热带雨林的野外工作站里，一台笔记本就能完成新物种的实时基因组比对，无需等待数据传回城市超算中心；

• 育种大棚旁的手提电脑上，正在生成明天就要试种的抗病基因序列，算力门槛不再是育种创新的天花板；

• 诊室里，遗传咨询师在患者身旁打开电脑，几分钟内完成全外显子组变异解读，让罕见病诊断不再被机房排期拖延。

把先进的AI工具从超算中心搬到每个人的桌面上——这是Carbon对“开放科学”最真诚的诠释。

赋能：生成式DNA模型的应用图景

当基因组模型变强大的同时开放普惠，将推动应用层面的链式反应：

🧬AI辅助疫苗与药物设计：快速生成编码最优抗原表位的DNA序列，加速 mRNA疫苗与基因疗法的迭代周期；

🌾 智慧育种：在作物与livestock基因组中精准编辑，培育更高产、更抗病、更耐逆的品种，应对全球粮食安全挑战；

🏥 精准医疗：辅助解释癌症患者与罕见病患者的遗传变异，为个性化治疗提供序列级依据，让“千人千药”从概念走向临床；

🧪合成生物学：设计基因表达调控回路，让微生物成为高效生产药物、生物燃料和绿色化学品的“细胞工厂”。

Carbon不仅是一个预测器，更是一个生成式的设计伙伴——它懂 DNA 的语法，能写出符合进化逻辑的新序列。

展望：从“碳基序列”到“生命语言的GPT”

Carbon是一个强大的小模型，但它更是一个起点。

现在的DNA语言模型，是无法理解人类语言的；而人类，也难以直接理解模型的输出。模型与使用者之间，横亘着一道巨大的模态鸿沟。你可以让Carbon生成一段DNA，但你很难直接用自然语言问它：“请为我设计一个只在肝细胞中表达、且免疫原性最低的基因调控序列。”

打通模态，将是下一代基因组模型的圣杯。

北京中关村学院与Hugging Face将持续保持紧密合作，共同致力于实现从DNA基础模型到真正意义上的“生命语言GPT”的跨越—— 一个既能读懂基因组、又能与人类自然对话、还能解释自己设计理由的智能体。

想象一下：一位医生用中文描述患者的临床表型，模型便能在基因组中定位可疑变异并解释其致病机理；一位生物工程师用英文描述想要的酶活性，模型便能生成并优化编码该酶的DNA序列，同时标注每一步设计决策的依据。

我们期待生命科学领域人机协同时代的到来。

结语

Carbon的命名，既是对生命基石“碳”元素的致敬，也暗喻着这个模型的特质：它是构成更复杂生命智能的基本单元，朴素、坚固、不可或缺。

即日起，Carbon，正式开源。

关于“生命语言GPT”的下一章，我们正在与Hugging Face共同书写。

🔗 资源导航

模型主页：https://huggingface.co/HuggingFaceBio

技术报告：https://paperswithcode.co/paper/83340

交互式演示：https://huggingface.co/spaces/HuggingFaceBio/carbon-demo

本文技术资料由北京中关村学院导师李秋熠、Hugging Face及TIGEM联合研究团队提供。

本文由 Hugging Face 中文社区内容共建项目提供，稿件由社区成员投稿，经授权发布于 Hugging Face 公众号。文章内容不代表官方立场，文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，请通过下面的链接投稿与我们取得联系: https://hf.link/tougao

内容中包含的图片若涉及版权问题，请及时与我们联系删除

社区供稿 | Hugging Face x 北京中关村学院等机构联合发布生成式基因组大模型Carbon：一场关于“生命语言”的范式革命

评论列表

评论