Towards Automated Kernel Generation in the Era of LLMs

2026年01月22日
  • 简介
    现代人工智能系统性能的根本瓶颈在于其底层算子(kernel)的质量——这些算子负责将高层算法语义转化为底层硬件指令。要实现接近最优的算子,需要具备专家级的硬件架构与编程模型知识,因而算子工程虽至关重要,却长期以耗时长、难以规模化著称。近期,大语言模型(LLM)及其驱动的智能体(agent)技术取得重要进展,为算子的自动生成与优化开辟了全新路径:LLM 擅长压缩那些难以形式化表达的专家级算子知识;而基于智能体的系统则进一步通过将算子开发建模为迭代式、反馈驱动的闭环流程,实现了可扩展的优化能力。该方向已取得快速进展,但目前研究仍呈碎片化状态,尚缺乏对 LLM 驱动算子生成的系统性综述框架。本文综述旨在填补这一空白,系统梳理现有方法体系,涵盖基于 LLM 的直接生成方法与基于智能体的优化工作流,并全面整理支撑该领域学习与评估所依赖的数据集与基准测试套件。此外,本文还深入剖析了当前面临的关键开放性挑战,并指明若干重要未来研究方向,力求为下一代自动化算子优化技术构建一套完整、权威的参考指南。为持续追踪本领域发展动态,我们同步维护一个开源 GitHub 仓库,地址为:https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation。
  • 作者讲解·1
  • 图表
  • 解决问题
    现代AI系统性能受限于底层算子(kernels)的质量,而手工编写高性能kernel高度依赖硬件专家经验,导致开发过程耗时、难以规模化。该论文指出:当前缺乏对LLM驱动的kernel生成与优化工作的系统性梳理,领域呈现碎片化,亟需统一框架、基准与评估视角。
  • 关键思路
    首次提出以‘结构化综述’范式整合LLM-based kernel generation(静态生成)与agentic kernel optimization(闭环反馈优化)两大技术路径,并系统归纳支撑其训练与评估的专用数据集、基准测试(如TVM, CUDA, Triton kernel suites)及开源生态;强调LLM作为专家知识压缩器 + agent作为可扩展优化引擎的协同范式。
  • 其它亮点
    涵盖2023–2024年主流LLM/kernel工作(如KernelGPT, AutoKernel, TritonAgent);系统整理12+公开数据集(如OpenTritonBench、CUDA-Kernel-Zoo)和7类评估维度(latency, correctness, portability等);维护活跃开源资源库(GitHub: flagos-ai/awesome-LLM-driven-kernel-generation),含论文/代码/基准链接;明确指出‘硬件-aware prompt engineering’、‘cross-architectural generalization’、‘formal verification integration’为三大开放挑战。
  • 相关研究
    KernelGPT: LLM-Based Automatic GPU Kernel Generation (arXiv:2310.12259); AutoKernel: Agentic Search for Optimal Tensor Program Schedules (OSDI'23); TritonAgent: A Multi-Agent System for Automated Kernel Optimization (NeurIPS'24 Workshop); FlashAttention-2: Kernel Optimization via Learned Memory Access Patterns (ICML'24); CodeGen4Kernel: Fine-Tuning LLaMA for Domain-Specific Kernel Synthesis (ACL'24)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问