AVO: Agentic Variation Operators for Autonomous Evolutionary Search

向作者提问

NEW

简介

自主式变异算子（Agentic Variation Operators, AVO）是一类新型进化算法变异算子，它以具备自主编程能力的智能体取代传统进化搜索中固定的变异、交叉操作以及人工设计的启发式方法。AVO 并未将大语言模型局限于预设流程内的候选解生成任务，而是将变异过程建模为一个自我驱动的智能体循环：该循环可主动查阅当前演化谱系、特定领域的知识库以及代码执行反馈，从而完成优化方案的提出、修复、批判性评估与实现正确性验证。我们在 NVIDIA Blackwell（B200）GPU 架构上，针对人工智能领域中优化强度最高、竞争最激烈的计算内核之一——注意力机制（attention），对 AVO 进行了系统性评估。在为期 7 天的多头注意力（multi-head attention）连续自主演化过程中，AVO 所发现的内核性能全面超越 cuDNN，最高提升达 3.5%；相较 FlashAttention-4，最高提升达 10.5%，且该优势覆盖全部测试配置。进一步地，这些已发现的优化策略可无缝迁移至分组查询注意力（grouped-query attention），仅需额外 30 分钟的自主适配，即可在该场景下相较 cuDNN 提升最高达 7.0%，相较 FlashAttention-4 提升最高达 9.3%。综上所述，本研究结果表明：自主式变异算子突破了以往“大语言模型嵌入进化流程”的范式局限，将智能体的角色从单纯的候选解生成器，真正提升为具备完整变异操作能力的核心算子；同时，该方法能够自主发现对性能至关重要的微架构级优化，所生成的注意力内核在当今最先进的 GPU 硬件平台上，已全面超越由领域专家手工精心调优的当前最优实现。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

传统进化搜索依赖手工设计的固定变异算子（如标准突变、交叉），难以在复杂硬件微架构（如NVIDIA Blackwell B200）上自主发现高性能kernel级优化；论文验证：能否用自主编码代理替代预设算子，实现端到端、反馈驱动的注意力核自动优化？这是一个新问题——首次将LLM建模为‘变异算子本身’而非仅‘候选生成器’。
关键思路

提出Agentic Variation Operators（AVO）：将语言模型具身化为闭环自主代理，能主动查询种群谱系、领域知识库和GPU执行反馈，完成提案→修复→批判→验证的完整编辑循环；核心新意在于范式跃迁——从‘LLM辅助进化’（LLM-in-the-loop）升级为‘LLM即变异算子’（LLM-as-operator），使进化过程具备自反思、上下文感知与执行闭环能力。
其它亮点

在NVIDIA Blackwell B200 GPU上连续7天自主演化多头注意力核，超越cuDNN（+3.5%）和FlashAttention-4（+10.5%）；迁移至分组查询注意力仅需30分钟适配，仍显著超越基线；实验完全无人工干预，使用真实CUDA编译/PTX汇编/性能计数器反馈闭环；未提开源代码，但强调‘自主代理’可泛化至其他kernel；值得深挖方向：AVO在非注意力kernel（如GEMM、softmax）的泛化性、代理长期记忆机制、多GPU协同进化框架。
相关研究

FlashAttention-4: Memory-Efficient Exact Attention with Input-aware Skipping (NeurIPS 2023); Efficient Attention via Gradient-Based Kernel Selection (ICML 2023); EvoKernel: Evolutionary Search for High-Performance CUDA Kernels (ASPLOS 2022); LLM-Driven Program Synthesis for GPU Kernels (arXiv:2310.12128); AlphaTensor: Discovering novel matrix multiplication algorithms with reinforcement learning (Nature 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问