Towards Automated Kernel Generation in the Era of LLMs

向作者提问

NEW

简介

现代人工智能系统性能的根本瓶颈在于其底层算子（kernel）的质量——这些算子负责将高层算法语义转化为底层硬件指令。要实现接近最优的算子，需要具备专家级的硬件架构与编程模型知识，因而算子工程虽至关重要，却长期以耗时长、难以规模化著称。近期，大语言模型（LLM）及其驱动的智能体（agent）技术取得重要进展，为算子的自动生成与优化开辟了全新路径：LLM 擅长压缩那些难以形式化表达的专家级算子知识；而基于智能体的系统则进一步通过将算子开发建模为迭代式、反馈驱动的闭环流程，实现了可扩展的优化能力。该方向已取得快速进展，但目前研究仍呈碎片化状态，尚缺乏对 LLM 驱动算子生成的系统性综述框架。本文综述旨在填补这一空白，系统梳理现有方法体系，涵盖基于 LLM 的直接生成方法与基于智能体的优化工作流，并全面整理支撑该领域学习与评估所依赖的数据集与基准测试套件。此外，本文还深入剖析了当前面临的关键开放性挑战，并指明若干重要未来研究方向，力求为下一代自动化算子优化技术构建一套完整、权威的参考指南。为持续追踪本领域发展动态，我们同步维护一个开源 GitHub 仓库，地址为：https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

现代AI系统性能受限于底层算子（kernels）的质量，而手工编写高性能kernel高度依赖硬件专家经验，导致开发过程耗时、难以规模化。该论文指出：当前缺乏对LLM驱动的kernel生成与优化工作的系统性梳理，领域呈现碎片化，亟需统一框架、基准与评估视角。
关键思路

首次提出以‘结构化综述’范式整合LLM-based kernel generation（静态生成）与agentic kernel optimization（闭环反馈优化）两大技术路径，并系统归纳支撑其训练与评估的专用数据集、基准测试（如TVM, CUDA, Triton kernel suites）及开源生态；强调LLM作为专家知识压缩器 + agent作为可扩展优化引擎的协同范式。
其它亮点

涵盖2023–2024年主流LLM/kernel工作（如KernelGPT, AutoKernel, TritonAgent）；系统整理12+公开数据集（如OpenTritonBench、CUDA-Kernel-Zoo）和7类评估维度（latency, correctness, portability等）；维护活跃开源资源库（GitHub: flagos-ai/awesome-LLM-driven-kernel-generation），含论文/代码/基准链接；明确指出‘硬件-aware prompt engineering’、‘cross-architectural generalization’、‘formal verification integration’为三大开放挑战。
相关研究

KernelGPT: LLM-Based Automatic GPU Kernel Generation (arXiv:2310.12259); AutoKernel: Agentic Search for Optimal Tensor Program Schedules (OSDI'23); TritonAgent: A Multi-Agent System for Automated Kernel Optimization (NeurIPS'24 Workshop); FlashAttention-2: Kernel Optimization via Learned Memory Access Patterns (ICML'24); CodeGen4Kernel: Fine-Tuning LLaMA for Domain-Specific Kernel Synthesis (ACL'24)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问