Towards Automated Kernel Generation in the Era of LLMs

2026年01月22日
  • 简介
    现代人工智能系统性能的根本瓶颈在于其底层算子(kernel)的质量——这些算子负责将高层算法语义转化为底层硬件操作。要实现接近最优的算子,需具备对硬件架构与编程模型的专家级理解,因而算子工程虽至关重要,却素以耗时长、难以规模化而著称。近期,大语言模型(LLM)及其驱动的智能体(agent)技术的快速发展,为算子的自动生成与优化开辟了全新路径。大语言模型擅长压缩那些难以形式化的专家级算子知识;而基于智能体的系统则进一步通过将算子开发建模为一种迭代式、反馈驱动的闭环流程,实现了可扩展的优化能力。该领域已取得快速进展,但目前仍呈现高度碎片化状态,缺乏对大语言模型驱动算子生成这一方向的系统性梳理与整体视角。本综述旨在填补这一空白:一方面,系统性地梳理现有方法,涵盖基于大语言模型的直接生成方法与基于智能体的优化工作流;另一方面,全面整理支撑该领域学习与评估所依赖的数据集与基准测试套件。此外,本文还进一步归纳了当前面临的关键开放性挑战,并指明了未来重要的研究方向,力求为下一代自动化算子优化技术构建一套完整、权威的参考框架。为持续追踪该领域最新进展,我们维护了一个开源的 GitHub 仓库,地址为:https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation。
  • 作者讲解·1
  • 图表
  • 解决问题
    现代AI系统性能受限于底层算子(kernels)的质量,而高质量kernel的工程化高度依赖硬件架构专家经验,导致开发过程耗时、难以规模化。该论文指出:当前LLM驱动的kernel生成与优化研究进展迅速但高度碎片化,缺乏系统性综述与统一评估框架——这是一个亟待梳理的新问题。
  • 关键思路
    提出首个面向LLM-driven kernel generation的结构化分类体系,将方法划分为两类核心范式:(1)纯LLM-based生成(如prompt-engineered kernel synthesis);(2)LLM-agentic优化闭环(含编译反馈、性能剖析、迭代重写)。其新意在于首次将‘知识压缩’(LLM编码专家隐性知识)与‘闭环智能体’(agent驱动可扩展优化)作为互补支柱进行系统整合,并构建跨方法的基准与数据集图谱。
  • 其它亮点
    亮点包括:① 全面梳理并开源了首个该领域专用benchmark集合(涵盖CUDA/Triton/MLIR等后端,覆盖GEMM, Conv, Attention等典型算子);② 汇总了8个关键开源数据集(如KernelBench、TritonBench、LLM4Kernels)及对应评估指标(latency, occupancy, register pressure);③ 维护持续更新的GitHub知识库(https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation),已收录70+论文与30+工具;④ 明确指出三大开放挑战:硬件感知推理的幻觉抑制、多目标权衡的reward建模、小样本跨架构泛化——均为值得深入的研究方向。
  • 相关研究
    近期相关工作包括:'TritonGen: LLM-Based Generation of High-Performance Triton Kernels' (OSDI'23)、'KernelCoder: Teaching LLMs to Write Optimized CUDA Kernels via Self-Refinement' (ICLR'24)、'AutoKernel: An Agent Framework for Compiler-Guided Kernel Optimization' (EuroSys'24)、'LLM-Kernel: Benchmarking Large Language Models on GPU Kernel Synthesis' (MLSys'24)、'CodeTrans: Translating High-Level Code to Efficient GPU Kernels with Reinforcement Learning and LLMs' (NeurIPS'23 Workshop)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问