校企联手造硬核代码底座！InCoder-32B 登顶 SWE-bench，工业代码能力碾压同行

首个专为工业软件场景打造的统一代码基座模型，320亿参数，在14项通用基准和9项工业基准上全面验证。由北京航空航天大学、IQuest Research、澜舟科技、人大联合研发，已开源。

飞书文档 - 图片

引言：代码大模型很强，但“工业场景”依然水土不服

近年来，代码大模型（Code LLMs）的进步有目共睹——DeepSeek、Qwen、Claude、GPT等系列模型已经能在算法题、Web开发、脚本编写等通用任务上达到甚至超越人类程序员的水平。然而，当你真的试图用它们去写一个Verilog硬件模块、调优一个CUDA核函数、编写STM32的嵌入式固件，或者生成一个可制造的CAD脚本时，现有模型的表现往往会让人大跌眼镜。

这不是因为它们不聪明，而是因为工业代码的世界与通用软件工程有着本质的区别：

硬件语义：Verilog中的always块、posedge，以及时序约束，不是简单的逻辑描述；
资源限制：CUDA的gridDim.y上限是65535，超出即报错，而通用模型可能浑然不觉；
严格验证：工业代码必须经过仿真、综合、形式验证，才能流片或部署；
领域语言：Triton、CadQuery、SystemVerilog、ARM汇编……这些在公开代码库里占比极低。

正是看到了这一长期被忽视的鸿沟，研究团队推出了InCoder-32B —— 一个从头训练、专为工业代码智能打造的统一基础模型。

飞书文档 - 图片

什么是 InCoder-32B？

InCoder-32B是一个拥有 320 亿参数的稠密解码器模型，但不是"又一个大号代码模型"。它是首个将芯片设计、GPU内核优化、嵌入式系统、编译器优化、3D建模五大工业领域统一到单一框架下的代码大模型。

其核心设计理念是：工业代码的正确性只能通过真实执行环境来验证。因此，团队在数据合成与后训练中，构建了与生产环境完全一致的模拟/仿真工具链：

关键洞察：训练信号必须来自真实的编译、仿真、执行反馈，而不是模型自己打分或语法检查。

三阶段训练：怎么"教"出这个模型？

InCoder-32B的训练分为三个阶段，层层递进：

1. 预训练 & 退火（Pre-training & Annealing）

从15T token的通用代码+工业代码数据起步，采用三重召回策略（规则过滤 + FastText分类 + 语义检索）大幅提升Verilog、CUDA、Triton、嵌入式C等稀缺语料的覆盖率。
使用Fill-in-the-Middle（FIM）目标，学习代码的结构理解。

2. 中期训练（Mid-training）—— 关键突破

上下文扩展：从8K → 32K → 128K token，分两阶段进行，让模型能处理大型硬件项目（多文件依赖、完整调试会话）。
工业推理QA合成：由一线硬件/系统工程师设计场景，生成带自动验证（执行、静态分析、逻辑一致性）的推理问答对。
代理轨迹（Agent Trajectories）：捕获“思考-行动-观察”闭环，包含仿真器、编译器、验证工具的反馈。
工业工件：包括SystemVerilog/UVM测试台、SDC时序约束、GPU剖析日志等。

3. 后训练（Post-training）—— 执行接地

构建250万条基于真实工业任务的SFT样本，全部经过执行验证（编译、仿真、运行、性能评测）。
反馈驱动修复：对失败候选方案，捕获完整错误上下文（编译错误、波形差异、瓶颈），生成“失败-反馈-修复”闭环轨迹，教会模型像资深工程师一样调试。

评测表现：通用任务不落下风，工业任务全面领先

通用代码基准（14项）

在HumanEval、MBPP、BigCodeBench、LiveCodeBench、SWE-bench Verified等主流基准上，InCoder-32B以320亿参数与许多更大体量的MoE模型（如Qwen3-235B、DeepSeek-V3）同台竞技，表现亮眼：

SWE-bench Verified：74.8%，在所有开源权重模型中排名第一。
HumanEval：94.5%，与Kimi-K2-Instruct持平。
BFCL（多轮函数调用）：60.99%，领先同尺寸模型。

这说明它并未因专注工业而牺牲通用编程能力。

工业代码基准（9项，覆盖4大领域）

在芯片设计（VeriScope、RealBench、ArchXBench、VeriRepair）、GPU优化（KernelBench、TritonBench）、代码优化（EmbedCGen、SuperCoder）、3D建模（CAD-Coder）等工业标杆上，InCoder-32B全面碾压开源对手，并在多个任务上超越闭源模型Claude-Sonnet-4.6：