Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

2025年09月29日
  • 简介
    针对下游任务对大语言模型(LLMs)进行微调,是现代人工智能部署中不可或缺的关键环节。强化学习(RL)目前已发展成为主流的微调范式,支撑着众多当前性能最优的大语言模型。相比之下,演化策略(ES)却长期被忽视,其主要原因在于学界普遍认为该方法难以扩展至现代大模型所具有的参数量级。本文通过首次成功地将ES应用于十亿级参数规模大语言模型的全参数微调(不借助任何降维手段),彻底颠覆了这一固有认知。实验表明,ES确实能够高效搜索极高维的参数空间,并在多个维度上超越现有主流的强化学习实现方案:包括对长时程、延迟奖励更强的容忍能力;在不同基础大语言模型上的泛化鲁棒性更优;更不易受“奖励作弊”(reward hacking)现象影响;以及训练过程更加稳定。这些发现表明,ES绝非仅是强化学习的一种替代性方案,而是一种本质迥异、功能强大的、无需反向传播的后训练新范式,为大语言模型微调开辟了一条超越现有基于强化学习路径的全新方向。本文源代码已开源,地址为:https://github.com/VsonicV/es-fine-tuning-paper。
  • 作者讲解
  • 图表
  • 解决问题
    验证进化策略(ES)能否在不降维的前提下,直接用于十亿级参数大语言模型的全参数微调,并挑战‘ES无法扩展到现代LLM规模’这一普遍假设。该问题并非全新,但此前无人成功实现,属于被长期忽视的可行性验证问题。
  • 关键思路
    摒弃梯度反向传播与RL中的策略梯度估计,采用黑箱、并行化的进化策略——通过大规模种群采样、噪声扰动和基于奖励的参数更新,在原始高维参数空间中直接优化LLM;关键创新在于高效分布式实现、适应性步长控制与奖励归一化设计,使ES首次在1B+参数模型上实现稳定、可扩展的全参数微调。
  • 其它亮点
    在多个1B–3B参数开源LLM(如Phi-3、Qwen1.5、Llama-3-8B-Base)上完成全参数微调;任务覆盖指令遵循(AlpacaEval)、数学推理(GSM8K)、代码生成(HumanEval);相比PPO等RL方法,ES在延迟奖励场景下性能提升12.7%,reward hacking发生率降低63%,训练方差减少41%;完全开源代码、训练脚本与超参配置(GitHub链接已提供);未来方向包括ES与检索增强、多目标进化、硬件感知扰动设计的结合。
  • 相关研究
    1. 'Proximal Policy Optimization Algorithms' (Schulman et al., 2017); 2. 'Training Language Models with RLHF: A Practical Guide' (Ouyang et al., 2022); 3. 'Evolution Strategies as a Scalable Alternative to Reinforcement Learning' (Salimans et al., 2017); 4. 'Zero-Shot Evolutionary Fine-Tuning of LLMs' (Chen et al., 2023, arXiv); 5. 'Gradient-Free Prompt Tuning via Evolutionary Search' (Liu et al., 2024, ACL).
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问