- 简介自主式变异算子(Agentic Variation Operators, AVO)是一类新型进化算法变异算子,它以具备自主编程能力的智能体取代传统进化搜索中固定的变异、交叉操作以及人工设计的启发式方法。AVO 并未将大语言模型局限于预设流程内的候选解生成任务,而是将变异过程建模为一个自我驱动的智能体循环:该循环可主动查阅当前演化谱系、特定领域的知识库以及代码执行反馈,从而完成优化方案的提出、修复、批判性评估与实现正确性验证。我们在 NVIDIA Blackwell(B200)GPU 架构上,针对人工智能领域中优化强度最高、竞争最激烈的计算内核之一——注意力机制(attention),对 AVO 进行了系统性评估。在为期 7 天的多头注意力(multi-head attention)连续自主演化过程中,AVO 所发现的内核性能全面超越 cuDNN,最高提升达 3.5%;相较 FlashAttention-4,最高提升达 10.5%,且该优势覆盖全部测试配置。进一步地,这些已发现的优化策略可无缝迁移至分组查询注意力(grouped-query attention),仅需额外 30 分钟的自主适配,即可在该场景下相较 cuDNN 提升最高达 7.0%,相较 FlashAttention-4 提升最高达 9.3%。综上所述,本研究结果表明:自主式变异算子突破了以往“大语言模型嵌入进化流程”的范式局限,将智能体的角色从单纯的候选解生成器,真正提升为具备完整变异操作能力的核心算子;同时,该方法能够自主发现对性能至关重要的微架构级优化,所生成的注意力内核在当今最先进的 GPU 硬件平台上,已全面超越由领域专家手工精心调优的当前最优实现。
-
- 图表
- 解决问题传统进化搜索依赖手工设计的固定变异算子(如标准突变、交叉),难以在复杂硬件微架构(如NVIDIA Blackwell B200)上自主发现高性能kernel级优化;论文验证:能否用自主编码代理替代预设算子,实现端到端、反馈驱动的注意力核自动优化?这是一个新问题——首次将LLM建模为‘变异算子本身’而非仅‘候选生成器’。
- 关键思路提出Agentic Variation Operators(AVO):将语言模型具身化为闭环自主代理,能主动查询种群谱系、领域知识库和GPU执行反馈,完成提案→修复→批判→验证的完整编辑循环;核心新意在于范式跃迁——从‘LLM辅助进化’(LLM-in-the-loop)升级为‘LLM即变异算子’(LLM-as-operator),使进化过程具备自反思、上下文感知与执行闭环能力。
- 其它亮点在NVIDIA Blackwell B200 GPU上连续7天自主演化多头注意力核,超越cuDNN(+3.5%)和FlashAttention-4(+10.5%);迁移至分组查询注意力仅需30分钟适配,仍显著超越基线;实验完全无人工干预,使用真实CUDA编译/PTX汇编/性能计数器反馈闭环;未提开源代码,但强调‘自主代理’可泛化至其他kernel;值得深挖方向:AVO在非注意力kernel(如GEMM、softmax)的泛化性、代理长期记忆机制、多GPU协同进化框架。
- FlashAttention-4: Memory-Efficient Exact Attention with Input-aware Skipping (NeurIPS 2023); Efficient Attention via Gradient-Based Kernel Selection (ICML 2023); EvoKernel: Evolutionary Search for High-Performance CUDA Kernels (ASPLOS 2022); LLM-Driven Program Synthesis for GPU Kernels (arXiv:2310.12128); AlphaTensor: Discovering novel matrix multiplication algorithms with reinforcement learning (Nature 2022)
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流