
分论坛简介
近年来,大规模预训练模型在自然语言处理、计算机视觉等领域取得突破性进展,成为推动人工智能发展的核心动力。随着模型规模持续扩大,其背后的系统支撑能力正成为制约创新的关键因素。大模型系统不仅关系到模型训练与推理的效率与可扩展性,更在很大程度上决定了大模型生态的演进方向与可持续发展。
本次“大模型软硬件技术”分论坛将聚焦大模型训练与推理中的核心系统挑战,邀请来自清华大学、北京大学、中国科学院的知名专家学者,共同探讨如何通过软硬件协同,构建高效、可扩展、低能耗的大模型系统,推动形成具有全球竞争力的大模型技术生态。
分论坛主席
汪玉,清华大学电子工程系长聘教授、系主任。IEEE Fellow,国家自然科学基金杰出青年基金获得者,清华大学信息科学技术学院副院长,清华大学天津电子信息研究院院长。长期从事智能芯片、高能效电路与系统研究,发表IEEE/ACM期刊论文60余篇、会议论文200余篇,谷歌学术引用18,000余次。主持国家级以及企业联合项目多项,获CCF科学技术奖技术发明一等奖、国际设计自动化会议40岁以下创新者奖、CCF青竹奖等荣誉。曾获得4次国际学术会议最佳论文奖及12次最佳论文提名。
翟季冬,清华大学计算机系长聘教授、博士生导师、高性能计算研究所所长。青海大学计算机技术与应用学院院长。国家杰出青年科学基金获得者。CCF高性能计算专委副主任、CCF杰出会员。主要研究领域包括并行计算、编程模型与编译优化。在并行计算与系统领域顶级会议和期刊发表论文100余篇,出版专著1部。研究成果获IEEE TPDS 2021最佳论文奖、IEEE CLUSTER 2021最佳论文奖、ACM ICS 2021最佳学生论文奖等。担任NPC 2018程序委员会主席、IEEE CLUSTER 2021领域主席,IEEE Transactions on Computers等多个国际学术期刊编委。担任清华大学学生超算团队教练,指导的团队十五次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS青年科学家奖、高校计算机专业优秀教师奖励计划,大川基金。
章明星,清华大学计算机系助理教授。主要从事内存系统研究,开源项目 Mooncake 和 KTransforemers 发起人。相关成果在 OSDI、SOSP、ASPLOS、HPCA、EuroSys 等国际顶级会议和期刊上发表论文三十余篇,包括 FAST 最佳论文,SIGSOFT 杰出论文,和国内高校首篇 OSDI。曾获得 ChinaSys 新星和优博奖,IEEE TCSC 优博,入选中国科协青年人才托举计划,科技部重点研发项目课题负责人。曾任深信服首席算法技术专家,创新研究院院长,相关孵化产品应用于数万家客户。
分论坛讲者&报告简介
报告题目
大模型推理系统
报告摘要
大模型赋能千行百业,其推理系统作为支撑引擎,面临着推理成本高的挑战。本报告将从内存管理、编译优化、模型量化和并行策略四个关键维度,深入剖析大模型推理系统加速技术。本报告将探讨高效的内存管理方法、编译优化、模型压缩与量化,以及并行推理策略,并分享实验室在这些方向的最新研究进展,为构建高效、低成本的大模型推理系统提供思路与参考。
讲者简介
翟季冬,清华大学计算机系长聘教授、博士生导师、高性能计算研究所所长。青海大学计算机技术与应用学院院长。国家杰出青年科学基金获得者。CCF高性能计算专委副主任、CCF杰出会员。主要研究领域包括并行计算、编程模型与编译优化。在并行计算与系统领域顶级会议和期刊发表论文100余篇,出版专著1部。研究成果获IEEE TPDS 2021最佳论文奖、IEEE CLUSTER 2021最佳论文奖、ACM ICS 2021最佳学生论文奖等。担任NPC 2018程序委员会主席、IEEE CLUSTER 2021领域主席,IEEE Transactions on Computers等多个国际学术期刊编委。担任清华大学学生超算团队教练,指导的团队十五次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS青年科学家奖、高校计算机专业优秀教师奖励计划,大川基金。
报告题目
基于DRAM近存计算架构的大模型推理优化
报告摘要
DRAM近存计算架构具备高访存带宽、大存储容量的优势,对于大规模神经网络、图计算、推荐系统等应用有较好的加速效果,因此受到了学术界和工业界的广泛关注。本报告首先回顾近期工业界提出的DRAM近存计算芯片,并分析其特点和面临的挑战;然后,进一步介绍如何利用DRAM近存架构来加速端侧大模型推理,并分享我们近期在该方向的一些研究进展,包括架构设计和协同优化等。
讲者简介
孙广宇,北京大学集成电路学院长聘副教授。研究领域为领域定制体系架构的设计与自动化,包括高能效计算架构、新型存储架构、DTCO/STCO等。近年来在包括ISCA、MICRO、HPCA、DAC、TCAD在内等高质量会议和期刊上发表论文100余篇, 获最佳论文奖5次、最佳论文提名4次。获得CCF-IEEE CS青年科学家奖、DAC Under-40 Innovators Award等,并入选体系架构会议HPCA“名人堂”、可重构硬件会议FPGA“名人堂”、北京智源人工智能研究院“青年科学家”等。
报告题目
针对混合专家和后训练优化的大模型系统
报告摘要
本报告首先回顾当前大模型系统中的一系列关键问题,包括混合专家(Mix-Of-Expert)结构和基于人类反馈的强化学习(Reinforcement Learning with Human Feedback)的后训练算法对系统的影响,和attention算子的高效实现。然后讨论当前工作解决这些挑战的一些思路,包括动态专家分配和调度、面向高吞吐量的混合专家执行、训练效率和执行效率兼顾的RLHF系统框架、以及新的attention算子实现策略。
讲者简介
钱学海,清华大学计算机系教授。研究领域包括并行计算机体系结构、面向领域的体系结构和系统、硬件安全等。他于2013年获得美国伊利诺伊大学香槟分校博士学位,并获得W.J Poppelbaum Memorial Award。先后在南加州大学和普渡大学任教,获得美国国家自然科学基金Career Award等多项资助,并获得首届北美华人计算机协会新星奖。在国际顶级会议和期刊上发表多篇论文,进入所有四个计算机体系结构顶级会议(ISCA, ASPLOS, MICRO, HPCA) “名人堂” (Hall of Fame)。
报告题目
编译技术在AI软件栈中的实践分享
报告摘要
充分的发挥芯片的性能是编译器长久以来的追求,并在AI时代显得更加重要。本报告将汇报一系列结合AI编译和传统编译的优化技术,探索如何利用跨越多个层次的编译优化技术构建高效的针对AI应用的基础设施。
讲者简介
刘颖,博士,中国科学院计算技术研究所高级工程师。从事编译技术研究十余年,在编译系统研制方面具有丰富的技术积累和工程经验,主持研制或作为骨干参与研制了多款国产芯片的编译系统。两次入围高性能计算应用领域最高奖Gordon Bell奖,成果发表在ASLPOS、SC、TPDS、CGO、PACT等高水平国际期刊和会议上。
后续我们将继续更新本次学术年会相关信息,敬请持续关注!
本次年会报名推送请查看:开启报名 | 清华大学基础模型2025学术年会

点击下方 关注我们

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢