Towards Automated Kernel Generation in the Era of LLMs

向作者提问

NEW

简介

现代人工智能系统性能的根本瓶颈在于其底层算子（kernel）的质量——这些算子负责将高层算法语义转化为底层硬件操作。要实现接近最优的算子，需具备对硬件架构与编程模型的专家级理解，因而算子工程虽至关重要，却素以耗时长、难以规模化而著称。近期，大语言模型（LLM）及其驱动的智能体（agent）技术的快速发展，为算子的自动生成与优化开辟了全新路径。大语言模型擅长压缩那些难以形式化的专家级算子知识；而基于智能体的系统则进一步通过将算子开发建模为一种迭代式、反馈驱动的闭环流程，实现了可扩展的优化能力。该领域已取得快速进展，但目前仍呈现高度碎片化状态，缺乏对大语言模型驱动算子生成这一方向的系统性梳理与整体视角。本综述旨在填补这一空白：一方面，系统性地梳理现有方法，涵盖基于大语言模型的直接生成方法与基于智能体的优化工作流；另一方面，全面整理支撑该领域学习与评估所依赖的数据集与基准测试套件。此外，本文还进一步归纳了当前面临的关键开放性挑战，并指明了未来重要的研究方向，力求为下一代自动化算子优化技术构建一套完整、权威的参考框架。为持续追踪该领域最新进展，我们维护了一个开源的 GitHub 仓库，地址为：https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

现代AI系统性能受限于底层算子（kernels）的质量，而高质量kernel的工程化高度依赖硬件架构专家经验，导致开发过程耗时、难以规模化。该论文指出：当前LLM驱动的kernel生成与优化研究进展迅速但高度碎片化，缺乏系统性综述与统一评估框架——这是一个亟待梳理的新问题。
关键思路

提出首个面向LLM-driven kernel generation的结构化分类体系，将方法划分为两类核心范式：（1）纯LLM-based生成（如prompt-engineered kernel synthesis）；（2）LLM-agentic优化闭环（含编译反馈、性能剖析、迭代重写）。其新意在于首次将‘知识压缩’（LLM编码专家隐性知识）与‘闭环智能体’（agent驱动可扩展优化）作为互补支柱进行系统整合，并构建跨方法的基准与数据集图谱。
其它亮点

亮点包括：① 全面梳理并开源了首个该领域专用benchmark集合（涵盖CUDA/Triton/MLIR等后端，覆盖GEMM, Conv, Attention等典型算子）；② 汇总了8个关键开源数据集（如KernelBench、TritonBench、LLM4Kernels）及对应评估指标（latency, occupancy, register pressure）；③ 维护持续更新的GitHub知识库（https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation），已收录70+论文与30+工具；④ 明确指出三大开放挑战：硬件感知推理的幻觉抑制、多目标权衡的reward建模、小样本跨架构泛化——均为值得深入的研究方向。
相关研究

近期相关工作包括：'TritonGen: LLM-Based Generation of High-Performance Triton Kernels' (OSDI'23)、'KernelCoder: Teaching LLMs to Write Optimized CUDA Kernels via Self-Refinement' (ICLR'24)、'AutoKernel: An Agent Framework for Compiler-Guided Kernel Optimization' (EuroSys'24)、'LLM-Kernel: Benchmarking Large Language Models on GPU Kernel Synthesis' (MLSys'24)、'CodeTrans: Translating High-Level Code to Efficient GPU Kernels with Reinforcement Learning and LLMs' (NeurIPS'23 Workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问