“现在的人工智能,比如大语言模型,用起来很酷炫,学生很容易被上层的应用吸引,但深入后可能发现并非兴趣所在。而喜欢底层那些枯燥且有挑战东西的学生,包括我带过的学生,基本AI都‘真爱'。”翟季冬教授及其团队的经历,正是这种“真爱”的生动写照。2025 年 6 月,清华大学学生超算团队夺得 ISC25 总冠军,同时斩获 LINPACK 基准测试最高性能奖,台下掌声雷动。作为“团队背后的总教头”,这已经是翟季冬教授带领团队 15 次站上冠军领奖台。

从清华园到青海湖畔,翟季冬始终扎根并行计算与底层系统软件领域,用技术突破为人工智能领域筑牢算力基石。作为清华大学高性能计算研究所所长、青海大学计算机学院院长,他的研究不仅支撑了“八卦炉” 174 万亿参数大模型的训练,其目标更是让国产AI芯片在算力角逐中加速奔跑。  

在他看来,并行计算是支撑上层应用的“隐形骨架”:从大数据时代的 Hadoop,到如今的大模型训练,底层技术始终是高效运行的关键。面对如今AI算力需求的大爆发,他指出:大模型训练一次成本上亿元的背后,是底层优化的迫切性。而国产算力的破局之道,在于算法、软件、硬件的协同创新——用多层技术的协同弥补硬件本身的差距,让绿色算力等特色资源释放潜力。  

从培养学生“坐冷板凳”的定力,到推动“赛课结合”培育实战能力,翟季冬始终强调:系统领域虽入门难、周期长,但底层技术的突破永远值得深耕。如今,他带着清华支援青海大学的经验,正探索将西部绿色算力资源融入教学科研,为算力人才培养开辟新路径。 

对于青年研究者,他寄语:AI飞速迭代的浪潮中,需保持定力,聚焦核心问题深耕;而国产算力的未来,正藏在那些对“枯燥”底层技术的执着突破里。 

从实验室到产业界,翟季冬与团队的探索,正让“并行”的力量,成为国产算力崛起的重要推力。

智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事,记录技术世界的嬗变,激发当代AI从业者的创新思维,启迪认知、关注突破性进展,为行业注入灵感光芒。本次专访为总第29期。


简介:翟季冬,清华大学计算机系长聘教授、博士生导师、高性能计算研究所所长。青海大学计算机技术与应用学院院长。国家杰出青年科学基金获得者。CCF高性能计算专委副主任、CCF杰出会员。主要研究领域包括并行计算、编程模型与编译优化。研究成果获 IEEE TPDS 2021最佳论文奖、IEEE CLUSTER 2021 最佳论文奖、ACM ICS 2021最佳学生论文奖等。担任 NPC 2018程序委员会主席、IEEE CLUSTER 2021领域主席,IEEE Transactions on Computers等多个国际学术期刊编委。担任清华大学学生超算团队教练,指导的团队多次获得世界冠军。

01

让模型与硬件更好匹配:底层技术的突破之路

我们的工作则是,当有了这些新模型后,想办法让它们与硬件更好地匹配。

李梦佳:您最初是如何接触并行计算这一研究方向的?当时有哪些关键契机影响了您的选择?

翟季冬:当时在保研的时候有两个方向可选,一个是人智所做的算法方向,另一个是高性能所做的系统方向。相比算法研究,我更喜欢偏系统方向的高性能计算。在清华计算机系高性能所读研时,我开始接触并行计算这一方向。因为我们所的主要研究方向围绕高性能计算展开,其中包括并行计算、编译器等领域。读书期间就开始做这些方向,包括毕业之后当老师,也一直在这个方向开展研究。

图注:清华大学高性能计算中心

李梦佳:从学科关联和应用支撑的角度看,并行计算与上层应用领域的关系是怎样的?

翟季冬:从学科发展角度看,并行计算属于计算机体系结构中的并行与分布式处理领域。十年前,大数据是比较重要的研究方向时,像 Hadoop、Spark 等技术主要用于处理大数据。之后出现了图计算,现在则是人工智能,这些都属于上层应用领域。而并行计算、编译器等底层技术,正是支撑上层应用在不同的硬件上高效运行的关键。我们所做的,是针对那些对计算非常敏感的应用,比如人工智能不管是预训练还是推理都需要极强的算力,而像扫码骑共享单车这类对算力要求非常低的应用,就不需要特别高端的算力支撑。

因为现在的人工智能对算力需求极大,比如大模型训练一次成本可能上亿,这就有动力去优化,让它运行更快更好;但如果企业做一次大模型训练成本只有几千,投入更多的人力去优化的动力就不强。所以核心是,一个负载或应用对计算的需求越强,对底层支撑软件的要求就越高。

李梦佳:能否分享近期您认为最具突破性的研究工作?它在技术上解决了什么核心问题?

翟季冬:过去几年,我们围绕国产智能算力,做了一系列系统软件方面的相关研究,其中有几项具有代表性的工作。

第一项工作是“八卦炉”2021 年我们在青岛的新一代神威超级计算机上,搭建起 174 万亿参数大模型(MoE 大模型)的并行训练加速系统,该系统在全机 3700 万核上顺利运行,经实测性能超过 EFLOPS。

图注:“神威·太湖之光”超级计算机机房。图片来源:视觉中国

第二项是由清华大学与清程极智合作研发的大模型推理引擎“赤兔”。其核心用途是在国产 AI 算力上进行大模型推理时,可以大幅降低推理成本。目前,赤兔推理引擎已适配多款国产 AI 芯片。这样一来,进行大模型推理时,就不需要关心使用的是国外算力还是国内算力。

除此之外,我们围绕智能算力还做了其他工作,像 FastMoE,它曾经支撑了智源悟道2.0大模型的训练。

李梦佳:您在领域内发表了大量顶级成果,并屡获国际最佳论文奖。背后的秘诀是什么?

翟季冬:首先,很多工作是我和学生一起完成的,我觉得整个实验室团队协作是非常重要的,大家共同去解决领域里的重要问题,这样更容易产出好的成果。

其次,无论是面向工业界还是学术界,都要去做大家公认的最有挑战性的问题。这些有挑战的问题如果能够得到有效解决的话,工作的研究成果也会得到会议或期刊的认可

第三多与企业或者一些研究机构合作这一点很重要我们实验室之前的很多工作都是如此,比如获得 IEEE CLUSTER 2021 最佳论文奖的研究,是和图森未来合作的。当时他们在自动驾驶系统底层遇到了很多挑战,我们主要解决了通信方面的问题,相关论文也获得了同行的认可。通过和企业的合作能了解业界面临的挑战。将这些问题提炼成研究课题并解决,再在国际会议或期刊上发表,就有机会获得更多认可。

李梦佳:您的工作是否涉及对 Mamba、Transformer 这类架构的创新?具体是在哪些层面开展相关工作的?

翟季冬:我们的工作处于像 Mamba 或 Transformer 这样的模型之下。比如要是 Mamba 模型在华为芯片上运行性能不佳,我们就会针对这类模型进行优化,让它能更好地适配国产芯片或某一款特定芯片。像唐杰、刘老师等这些从事模型创新的研究人员,他们会考虑设计新的模型架构。而我们的工作则是,当有了这些新模型后,想办法让它们与硬件更好地匹配。 

图注:清华大学高性能计算中心成员合影,翟季冬在第三排左六

02

算法-软件-硬件协同创新弥补底层硬件缺陷

要让算法、软件、硬件三者实现协同创新,这样才能有效弥补底层硬件的一些缺陷。

李梦佳:您创立清程极智的初衷是什么?公司主要希望解决哪些最迫切问题?

翟季冬人工智能主要包括数据、算法和算力三个要素目前,美国的高端算力不向中国出售,所以我们不得不使用国产 AI 芯片,比如华为昇腾、寒武纪、海光等。但国产算力目前的软件生态还很不完善,因此我们实验室的很多研究都是围绕国产智能算力展开的核心就是完善国产智能算力的软件生态。

后来,我们实验室有几位毕业的学生,希望能把实验室的科研成果进一步落地,解决行业面临的痛点,于是就成立了清程极智。清程极智主要聚焦 AI Infra 赛道,致力于通过构建高效、易用的智能算力系统软件为国产算力赋能,助力人工智能产业的发展。清程极智目前提供的大模型端到端的训练和推理及配套的性能优化服务,已帮助数款大模型实现了在国产芯片上的快速预训练和高性能推理优化,全面降低了大模型的部署成本,极大提升了大模型的运行效率。

:翟季冬在第二十届全国高性能计算学术年会上发言

李梦佳:国产算力生态确实面临不少挑战。从您的角度长期观察来看,当前国产算力的核心壁垒是什么?关键突破口又在哪里?

翟季冬:国产算力方面,中国的芯片公司很难获取最先进的流片工艺,因为最先进的流片工艺对我国是禁止的,这就导致我们的芯片采用的工艺可能比国外落后一代或两代。

要让国产算力变得好用,能在很多领域真正发挥作用,且具有较好的性价比,需要协同上层的算法、中层的系统软件以及底层的硬件。也就是说,要让算法、软件、硬件三者实现协同创新,这样才能有效弥补底层硬件的一些缺陷。通过上层算法的改进、系统软件的创新,再结合芯片架构的特色,就能让国产算力在人工智能相关领域得到更好的应用,我觉得这可能是我们未来发展潜在的一个突破口。

李梦佳:AI 大模型发展正从训练转向推理。这一结构性变化是否正在为国产算力创造“窗口期”?私有化部署需求的上升,会怎样重塑未来 AI infra 整体格局?

翟季冬:我觉得从年初 DeepSeek 开源之后,带动了一波大模型开源的热潮,比如阿里的千问系列,还有 Kimi K2、GLM - 4.5 等。我们能看到包括 OpenAI 在内的国外公司,也被中国带动着走向开放开源。

有了大量好用的基座模型开源后,下游做应用的人就会基于这些开源模型开发很多应用,自然而然会对算力产生巨大需求。比如做一个用户端的 AI 应用,要让它运行起来就需要大量算力。这对国外和国产的算力来说都是非常利好,只不过中国可能买不到一些高端的国外算力,这样大家就会在国产算力和可购买到的算力之间做权衡。

总的来说,上层技术的发展推动了底层算力的发展,这也使得中间的 AI infra 层需求很大,因为 AI infra 这层起着承上启下的作用。向下对接不同的芯片,向上承接基座模型或应用。在这个过程中,如果希望降低模型的推理成本,中间的 AI infra 层作用非常重要,它能在不同算力上显著降低推理成本。

以编译器为例,是底层系统软件中非常重要的一部分,它的作用是把大模型里的一些基本算子有效地编译到底层 AI 芯片中。简单来说,大模型是由一个个算子组成的,要是能把每个算子的性能发挥到极致,大模型在训练和推理时的整体性能就会有显著提升。编译优化是一个充满挑战的方向。在清华大学计算机系本科的核心课程里,编译原理难度很大,因为它介于芯片和用户程序之间,需要把用户程序有效地翻译到底层芯片上。这需要它能感知底层芯片的特点,比如针对某一款特定的 AI 芯片,它有哪些硬件功能,编译器在转换代码时就需要有效利用这些硬件功能,才能充分发挥底层硬件的性能。

举个例子,DeepSeek 在年初开源时,里面有很多算子都做了深度编译优化,像  Flash MLA 就是针对底层英伟达 GPU 的特点进行了深度的优化

李梦佳:关于未来和智源的合作,您有哪些想法或者是期许?

翟季冬:智源成立时,我们就和智源有很多的合作,包括最开始我也是智源的青年科学家。我觉得未来有几个可以合作的方向,智源在很多领域的研究都很有影响力,包括刚才提到的编译器、大模型等方向。从清华的角度来说,我们愿意和智源这些开放研究机构加强合作。现在各项技术发展都很迅速,大家在各自领域都有自己独到见解,通过加强合作能够相互促进,取长补短。另外,智源和产业界的结合非常紧密,而高校本身还是以培养人才为主。通过和智源合作,很好的一点是大家可以一起发现一些有趣的问题,再围绕这些问题展开研究。

03

青海优势在于电力比东部城市便宜

青海有个优势,即电力比北京、上海等东部城市便宜。

李梦佳:您指导清华学生超算团队多次获得世界冠军,成就斐然。在教学过程中,如何帮助学生提升专业能力并为后续科研打下基础的呢?

翟季冬:在备赛过程中,我们和学生一起认真准备每道比赛题目,通过多种方式提升同学们的动手能力。学生通过参加这些竞赛,可以显著提高自己在并行优化、编译优化等方向的能力。很多同学从大二、大三开始参加比赛,大四加入我们实验室的课题组继续读研,本科阶段通过比赛积累的动手经验,在研究生期间做科研非常重要。通过比赛培养学生的能力,对后续做科研有非常大的帮助。

图注:清华大学学生超算团队获得2025国际大学生超算竞赛总冠军

另外,我在清华通过赛课结合的方式发挥学生的潜力。我给计算机系本科生讲授《高性能计算导论》的课程,每年有上百名同学选课,我会把这门课程和一些相关比赛有效地结合起来。比如,在课程中对并行优化方向非常感兴趣的同学,学完基础课后,我会推荐他们继续参加相关比赛,例如国际大学生超算竞赛,并行应用优化 PAC 比赛等,通过比赛继续深化课程所学知识。

李梦佳:从 2001 年开始,清华大学支援青海大学,到现在已经有 24 个年头了,您从今年年初来到青海大学有哪些感受可以分享?

翟季冬:清华大学持续对口支援青海大学,现在青海大学校长史元春教授也是我们系的老师。我担任青海大学计算机学院院长,也是清华对口支援青海大学工作的一部分。

青海有个优势,就是电的价格比北京、上海等城市要便宜,青海省现在也在大力发展绿色算力。在国家“东数西算” 等战略布局下,青海会陆续建设很多算力中心。我们希望把青海大学的课程建设与当地特色,比如绿色算力资源有效整合,这对学生成长会有很大帮助。有些单位把算力中心建在西部,利用西部的绿色能源、清洁能源的电力,能显著降低算力运营成本。我们希望有效结合这些算力中心,把青海大学的教学、科研工作做好。

图注:海西中控热熔岩发电。图片来源于青海日报融媒体。

李梦佳:您在清华成功实践了“超算竞赛+课程”的培养模式。在青海大学,如何克服资源、生源基础差异等困难,因地制宜地推广这种模式?目前是否有具体计划或试点课程?

翟季冬:青海大学计算机学院从 2015 年开始超算人才和团队培养,2018 年首次取得 ASC 全球一等奖,之后又连续多届蝉联 ASC 全球一等奖。学院在超算人才培养方面的突破,源于省上和学校给予的超算人才培养的大力支持,主要的特色包括:

一,“以赛促学”,开展竞赛驱动的实战化培养模式学院将国际超算竞赛作为人才培养的“练兵场",组建稳定的“超算人才培养班”、“绿色算力创新实验班”和导师团队,通过“老带新”梯队建设,确保每年有学生团队参赛并冲击奖项。

第二,“高原特色”,将学科交叉与地域优势结合。聚焦区域需求,依托青海生态屏障和清洁能源基地定位,引导学生利用超算技术开展三江源生态建模、青藏高原气候数值模拟、绿色算力关键技术等特色研究,探索绿色能源低功耗超算调度算法等。

第三,“校企地协同”模式,开展资源整合的创新路径。与国家超算无锡中心、华为、浪潮等建立合作,聘请工程师参与指导学生工作,进行国产申威处理器加速代码移植;与青海省气象局合作开发高原气候预测模型等。

04

选择底层系统研究的学生对AI都是“真爱”

如果有同学说喜欢我们这个方向,我认为他是真的喜欢,因为这个方向本身充满了很多挑战。

李梦佳:现在有越来越多青年科研者希望投身国产基础科技建设,比如做底层算力软件、操作系统和编译器。但这些方向周期长、挑战大,您会给他们怎样的建议?

翟季冬:系统这个领域,相对来说是上手比较慢的方向。我在清华带本科生做科研时发现,从事这个方向研究,不太可能几个月就发表高质量文章。我带的很多研究生,他们从大二开始进入实验室,在大二、大三开始听组会,或者参与一些科研项目,在这个过程中自身会有一定的能力提升。一般到大四开始做毕业设计的时候,才能开始慢慢自己主导一个项目;到研一的时候,开始做一个自己牵头的科研课题。

做系统方向,这还是一个比较好的节奏。很多做算法或应用的学生,大三或大四时可能就有自己主导的文章了,但系统领域确实难度更大。

包括很多后来发展不错的学生,他们在大四下学期或研一上学期才开始有成果,大部分同学甚至更晚。我特别建议做系统方向的年轻人要能坐得住冷板凳,前期要把很多相关的背景知识有效积累起来。每个学科都有自己的发展规律,当基础积累得差不多了,就能慢慢做出一些创新。

李梦佳:有没有学生因为觉得这个领域发论文比较慢,进而转向其他领域的?

翟季冬:我觉得一般不会。比如我们课题组,研究方向主要是偏底层的系统软件,编程模型、编译优化、并行优化等。如果有同学说喜欢这个方向,他们是真的喜欢,因为这个方向本身充满了很多挑战,大家一定是发现了这个方向的科研乐趣,愿意投入时间开展研究。

现在的人工智能,比如大语言模型用起来很酷炫,学生很容易被上层的应用吸引,但深入后可能发现并非兴趣所在。而喜欢底层那些枯燥且有挑战东西的学生,包括我带过的学生,基本都是“真爱”。毕竟没必要违心去做枯燥的事情,这对他们没有好处。

图注:清华学生超算团队在2018国际大学生超级计算机竞赛中摘得总冠军

李梦佳:目前这个领域毕业后的就业方向是什么样的?除了在高校里面继续做科研还有哪些就业方向?

翟季冬今年和去年毕业的学生,大部分去了大厂,比如字节、DeepSeek、华为等。这些大的企业本身都有大模型训练或者推理方面的需求。在系统领域,其实国内毕业的博士相对比较少,大部分毕业学生都去了不错的企业,而且这些企业开出的工资也特别高。

李梦佳:谷歌、OpenAI等都纷纷发布新工作,发展非常迅猛,导致有太多噪声和技术泡沫,在这样的快速发展的环境当中,您会如何建议年轻人坚持自己的投入,专注自己的方向

翟季冬:我的建议是这样的。我们实验室里也有很多年轻学生在寻找方向,我觉得这一波人工智能最大的特点是发展非常迅速,一直在不断迭代,不管是预训练、后训练还是推理等,基本上每个月都会有新技术出现。

对于博士生来说,他们通常要花四五年的时间专注于一个方向。我觉得博士生还是要保持定力,有自己的判断,想清楚自己要在哪个点上寻找突破。不能因为突然爆出一个新闻说某个问题已经解决了,就觉得自己做的事情没有意义。还是要有判断力和定力,能够真的在一些重要方向,愿意花几年的时间做出这个领域有突破性的成果。总之,越是面对这种飞速发展和变化的领域,自己要有定力,想清楚未来几年要在哪个方向上进行深入研究,这是我想对年轻人说的。

- 推荐阅读 -

对话Meta杨凯峪:给AI打钢印的人 | 独家专访

内容中包含的图片若涉及版权问题,请及时与我们联系删除