AI正在从"解决问题的模型"演变为"构建系统的工程师"。从Kernel生成、编译器设计、训练框架自动编写,到处理器自动设计,AI赋能系统已在多个关键环节突破人工上限。当AI开始参与构建下一代AI系统时,软件与系统研发将发生根本性变化——这是本次论坛13位分享嘉宾共同探讨的核心命题。


2026年6月12日下午,2026智源大会「智算前沿·AI赋能系统」分论坛在中关村国际创新中心106会议室圆满举行。本次论坛历时五小时,汇聚来自智源研究院、科大讯飞、清微智能、华为昇腾、摩尔线程、北航、香港科大(广州)、上海交大、清华大学等机构的顶尖研究者与工程师,围绕算子自动生成、国产算力适配、新型芯片架构、AI编程工程化等核心议题展开深度分享与对话。


开场致辞|AI For AI System:从十年前的实践到今天的全面拥抱

用一句话总结林老师观点。

用十年轮回开场,智源研究院副院长、FlagOS社区创始人林咏华抛出本次论坛的核心命题——AI已从工具变成了能反过来冲击系统从业者自身的力量,FlagOS的选择是在每一层主动拥抱Agent,而非等待被替代。回顾了2013年前后,她的团队用AI For AI理念打造第一代无代码深度学习开发平台的往事——半自动标注、自动神经架构搜索、跨芯(GPU与FPGA)自动部署,那时已经是"AI赋能AI系统"的早期实践。

"十年前这个AI的能力小于AI从业者,但十年后,它的能力已经比我们要高了。"这不是一句玩笑,而是对整个领域的深刻判断。如今,大模型已能写代码、生成Kernel、修改框架,对FlagOS技术栈本身也构成冲击:智能体能否直接修改vLLM源码?能否自动为不同芯片生成Patch?算子库还有存在的必要吗?

林咏华的答案是极拥抱,而非被动承受。FlagOS正在各层全面响应智能体时代——编译器ForgeTrain面向Agent优化语言集;统一硬件表达为Agent搜索提供更好框架;算子层引入自动生成工具;框架层打造统一的Plugin接口,让Agent做模型迁移和芯片适配。

KernelGen 2.0|算子开发正在从"代码生成"进化为"系统协同工程师"

智源研究院系统研究组负责人刘广认为算子开发的人才瓶颈已到临界点,KernelGen 2.0通过MCP集成与多芯片适配,实现了从代码生成到完整开发闭环的跨越,瓶颈已从"写不出来"转移到"Review跟不上"。他直言算子开发是AI基础设施中最苦、最底层的活:需要懂硬件架构、懂模型算法、有严格的精度和速度要求,人才极度稀缺。与此同时,全球每天的Token调用量已突破140万亿次,如何以更低成本提供高质量算力,算子优化已从"锦上添花"变成"生死存亡"的问题。

刘广梳理了算子自动化生成的四个演进阶段:能力基准期→微调强化期→强化学习期→多智能体期,并介绍了KernelGen从1.0到2.0的蜕变。KernelGen 2.0的核心升级了MCP协议深度集成、多芯片适配、完整开发闭环。

当前KernelGen免费使用,每天20次调用限额。团队同步发布了KernelGenBench——首个覆盖vLLM、cuBLAS等生产级算子、支持5款国产芯片的多维评测体系,填补了现有Benchmark过于简单、单硬件生态锁定等缺陷。

科大讯飞|长期坚守,在国产算力上打磨出"真实可用"的大模型

科大讯飞副总裁、研究院院长 刘聪认为在国产算力上训练大模型不是简单的适配问题,而是一场需要深入软硬件架构、逐个击破底层瓶颈的硬仗。

几年下来,他们总结出在国产算力上训练的三大核心挑战:硬件性能差距、芯片架构差异、万卡常态化训练稳定性。针对上述挑战,团队提出了一系列创新方案:基于微序列并行流水训练优化、面向CV分离架构的注意力计算访存优化、基于前后向kernel编排的MoE通算掩藏、基于进程级快恢的集群规模无关断点续训等技术,在昇腾910B上实现了GPT框架、长思维链强化学习、MoE模型三个关键大模型框架训练效率对标英伟达A800。

目前,讯飞也在探索基于Triton框架适配国产AI芯片,并将相关成果贡献到智源FlagOS开源生态。

清微智能|跨越"三道墙",用架构革命重构AI算力基础设施

清微智能软件副总裁 李彬提出算力“四维重构”:以架构补工艺、以集成超制程、以系统聚算力、以自主创生态。环环相扣,让国产算力从"可用"走向"好用"。  面对AI大模型时代不断增长的算力需求,清微的逻辑很明确:不依赖于制程工艺升级的限制,用架构重新定义效率。他在演讲中表示,传统架构芯片面临功耗墙、内存墙、通信墙层层限制,有效晶体管利用率不足40%。清微智能以可重构数据流引擎让计算单元根据数据流动按需重组,晶体管有效利用率一举突破70%,用成熟制程实现接近先进制程的有效算力。

在软件层面,清微与智源研究院合作深入,是行业内少数实现 FlagOS 全部核心组件全栈兼容的企业,适配规模在非GPU架构中与华为昇腾并列前二。"国产芯片第一天就能完成如此复杂的大模型适配,这在我20年芯片从业史中是第一次看到——得益于FlagOS统一软件生态的构建。"

华为昇腾|从全面开源到950全新架构,昇腾开发者生态迎来重大升级

昇腾计算基础软件业务总经理李守平介绍昇腾CANN全量开源后,重心转向开发体验与下一代950架构的软硬件协同升级,核心目标是让开发者快速上手、高效挖掘硬件极致性能,而不只是把代码跑起来。昇腾CANN已于去年年底完成A2/A3代际全量开源,整个软件栈(除编译器接口外)全部源码开放。此次分享聚焦下一代950系列的架构创新与配套软件升级。

摩尔线程|TillSA + MTX:为多芯片时代设计一套稳定的编译中间层

摩尔线程软件部副总经理 徐伟认为不同于简单地兼容某一DSL,摩尔线程提出了两层中间表示架构:TillSA(上层)和MTX(下层)。两层IR形成稳定的中间地带——上层DSL来多少接多少,下层硬件迭代多快都无需重写中间层,真正实现编译器架构的解耦。"我们发现大家面临的问题都差不多——怎么描述Tensor,怎么描述Block。"

此外,徐伟还介绍了自己在春节期间用ChatGPT花约一周写出的µ-Lang语言:一个从TillSA底层"生长"出来的强类型函数式编程语言,专为推理引擎构建设计。大会期间,Triton TLE也在智算前沿论坛正式发布,这进一步诠释了TillSA的设计理念与工程实践。

北航杨健|工业级代码模型:从"能写代码"到"参与复杂软件工程"

北京航空航天大学 杨健教授认为代码大模型的单点能力已很强,但工业场景真正需要的是长程任务的稳定执行——这恰恰是当前最薄弱的环节,也是学术界和产业界共同面对的下一道坎。他讲了大模型代码能力已从最初的代码补全,发展到能够参与工业场景的复杂软件开发流程。杨健梳理了代码大模型面临的新挑战。现有Benchmark已趋于饱和,新的评测体系正在涌现,但水分依然存在,工业场景下,长程任务执行的可靠性是当前最大瓶颈,原子能力强但组合后效果下降是普遍现象;用户体验在模型选择中的权重正快速上升。

他强调:对于代码模型的真正考验,是能否在真实、复杂的代码仓库中持续执行跨文件、跨模块的开发任务——不仅写对,还要写得可维护、可扩展。

北大张文涛|数据基础设施:为大模型和智能体提供"AI-Ready Data"

北京大学张文涛教授认为,数据已成为大模型竞争的核心要素,AI 落地的关键不只是模型结构、参数规模和算力投入,更在于能否持续获得高质量、多样化、可调度、可评估的数据,并将数据准备过程标准化

他介绍了面向大模型的 Data-centric AI 基础设施:从多元异构数据接入、解析与结构化加工,到 Agent 数据合成、质量门控、AI-Ready Data 出口,再到数据消费调度和效果评估闭环,形成 L0-L7 的完整架构。其中,DataFlow 开源工具作为核心底座,覆盖文本、表格、知识图谱、科研数据等多模态场景,内置近 200 个专业处理算子,支持低门槛的数据精细化处理。

在落地层面,张文涛老师提出企业不必盲目自研大模型,而应优先沉淀私域知识与数据资产。依托 DataFlow 等基础设施,组织和个人数据可以被构建为 Profile、Wiki、Record、Graph,并在持续使用中沉淀 Memory 与 Skill,形成企业专属的 AI“第二大脑”。

中科院计算所|启蒙系列:AI全自动设计处理器,性能已达2010年代CPU水平

国科学院计算技术研究所承书尧介绍了"启蒙"系列的完整研发历程:从首个全端全自动设计的处理器启蒙1号(2021年,65nm流片)到启蒙2号(2024年,28nm流片),他认为AI自动设计处理器不只是"能用"的演示,AI在芯片逻辑设计上具备独特优势,而非简单替代人力。

其中,解决设计正确性问题的核心方法是提出概率符号模型BSD(Binary Synthesis Decision),具备单调性,可解释性两个关键性质。针对性能优化问题,BSD方法通过细粒度门级网表分析,可以发现人工设计存在的假相关,进而获得超越人工设计上限的流水线结构等微架构优化。

目前,实验室正在进行启蒙3号的设计探索,力争实现更大规模,更高性能的AI自动设计处理器。

港科大(广州)DeepEye|面向开放复杂数据世界的自主智能体系统

香港科技大学(广州)骆昱宇教授认为,数据智能体(Data Agent)是一个长期被低估、但极具战略意义的方向。它并不是“通用 Agent + 工具调用”的简单组合,而是能够与数据系统进行深度交互、并原生运行于数据系统之上的专门智能体,面向真实的数据任务持续感知、决策与执行。相比通用智能体,数据智能体必须直面更复杂的工程现实:权限控制、并发冲突、跨时序数据检索,以及大量难以规整却直接影响系统可用性的 “dirty” 问题。

DeepEye 1.0 的核心设计,是将数据分析能力抽象为可组合的节点,并由节点进一步形成 DAG 执行图。执行引擎在图层面进行并行优化与调度;同时,每个节点只在其内部消化必要的推理上下文,从而避免长程任务中上下文不断膨胀、不可控累积的问题。

面向开放复杂数据世界,骆昱宇提出了三个关键未解挑战:长程任务的编排与可靠执行、跨数据系统的语义共享与记忆复用,以及动态数据环境下的持续泛化能力。他认为,随着智能体能力不断向真实数据场景渗透,数据系统与 Agent 的深度融合将成为 Data + AI 领域的重要发展方向。

上海交大林云|需求编译:自然语言"程序语言化",新的软件工程范式正在形成

上海交通大学 林云教授认为AI编程的真正革命不在于"AI能写代码",而在于"人只需说清楚需求"——需求工程取代传统代码工程成为核心,测试驱动和验证驱动的需求编译方法让智能体软件开发从演示变为生产级实践。他在上海交大开设了「智能体软件工程」课程,让本科生将上百个自然语言需求场景一次性"编译"成类似"12306"和携程的完整网站。结果令人震惊:古法编程需要两个月达到平均96%的测试通过率,智能体自动构建的复杂软件系统100%可运行,测试通过率90.3%,但开发时间从两个月压缩到5-6小时。他的需求编译核心方法论也可以将整个需求→设计→代码→测试的溯源链路被完整维护,大幅下降软件维护成本。

"软件工程是一个不断抽象的历史,以前是编程语言不断自然语言化,未来很可能是自然语言进行程序语言化——这使得需求工程和形式化验证将变得空前重要。"

清华大学ForgeTrain|AI自动写出超越人类最优实践的训练框架,耗时仅两天

清华大学水木学者、博士后 李宇轩认为AI制造AI的拼图已经齐了——ForgeTrain用四阶段Harness设计,实现了生产级训练框架的全自动编写,研发效率提升100倍,并由此提出"锻造工程":为每个场景定制专属框架,彻底抛弃通用栈的性能妥协。

AI制造AI的五级路线图已有轮廓,目前正处于L2-L3跨越期。通用AI能力进化到L4,AI自主研发将迎来真正的质变。

论坛最后的圆桌对谈环节,在圆桌讨论环节,与会嘉宾们指出当前具身智能与人形机器人的发展存在数据质量与数量不足、学术研究与产业落地错位、人形机器人移动操作难度大等问题;解决方案上,需融合互联网视频、遥操作、仿真等多源数据,推动硬件接口标准化,以系统化视角构建“大脑+小脑”分层框架,同时平衡技术创新与工程化验证,从而推动具身智能从实验室走向场景落地。

从算子自动生成,到国产算力软件栈,到AI自动设计芯片,再到AI自动编写训练框架——本次论坛展示了一个正在快速兑现的预言:AI正在接管自己的底层基础设施

这不是遥远的科幻,而是2026年正在发生的现实。智源研究院的FlagOS、KernelGen,讯飞的星火训练体系,清华ForgeTrain,上交大的需求编译课程……这些工作共同指向同一个方向:下一个十年,AI系统的研发效率将以百倍甚至千倍的速度压缩,而人类的核心价值将更多集中在"定义清晰的需求"和"严格的验证"上

正如林云所说,历史上编程语言一直在向自然语言靠拢,而现在,自然语言正在向程序语言靠拢——这或许就是这个时代最深刻的范式转移。

大会回放 https://2026.baai.ac.cn

内容中包含的图片若涉及版权问题,请及时与我们联系删除