- 简介人工智能能否加速其自身的发展?尽管近期涌现的智能体系统在任务边界清晰、反馈迅速的场景中展现出强大性能,但尚不清楚它们是否能够应对真正推动人工智能进步所依赖的那些成本高昂、周期漫长且监督信号微弱的研究闭环。本文提出 ASI-Evolve——一种面向“AI 驱动 AI 研究”(AI-for-AI)的智能体框架,通过“学习—设计—实验—分析”的闭环流程,实现对上述研究闭环的自主闭合。ASI-Evolve 在标准进化型智能体基础上,引入两项关键改进:一是“认知基座”(cognition base),将人类长期积累的先验知识注入每一轮探索过程;二是专用“分析器”(analyzer),可从复杂繁复的实验结果中提炼出结构化、可复用的洞见,供后续迭代持续调用。据我们所知,ASI-Evolve 是首个统一框架,成功在人工智能发展的三大核心环节——数据、模型架构与学习算法——中全面实现由 AI 主导的原创性发现。在神经网络架构设计方面,它自主发现了 105 种达到当前最优水平(SOTA)的线性注意力架构;其中性能最优的模型在基准测试中较 DeltaNet 提升达 +0.97 分,提升幅度约为近期人工设计改进成果的近三倍。在预训练数据构建方面,其所演化的数据处理流程使各项基准测试的平均性能提升 +3.96 分,在 MMLU 基准上更实现了超过 18 分的显著增益。在强化学习算法设计方面,所发现的新算法在 AMC32 上相较 GRPO 提升高达 +12.5 分,在 AIME24 上提升 +11.67 分,在 OlympiadBench 上提升 +5.04 分。此外,我们还通过数学与生物医学领域的初步实验,提供了该“AI 驱动 AI”范式有望迁移至人工智能技术栈之外领域的初步证据。综上所述,这些结果表明,ASI-Evolve 代表了通向“AI 自主加速 AI 发展”这一目标的重要一步,为“闭环式 AI 研究”的可行性提供了早期实证支持。
-
- 图表
- 解决问题论文试图验证一个核心假设:AI能否真正加速自身的发展——即在真实、长周期、弱监督、高成本的AI基础研究闭环(如数据构建、模型架构设计、学习算法创新)中,实现端到端的自主驱动发现,而非仅限于窄域、短反馈的任务优化。这是一个新问题,因此前尚无系统性框架能统一覆盖AI栈三大支柱(数据、架构、算法)并完成可复现、可积累的闭环科研迭代。
- 关键思路提出ASI-Evolve框架,首创‘认知基座(Cognition Base)+专用分析器(Dedicated Analyzer)’双增强机制:前者将人类积累的先验知识(如归纳偏置、训练稳定性经验、领域启发式)结构化注入每轮进化搜索,缓解纯黑箱优化的样本低效性;后者将杂乱实验结果(如多任务性能曲线、梯度动态、注意力模式)自动蒸馏为可重用、可推理的‘科研洞见’(如‘稀疏键值缓存提升长程记忆’),实现跨迭代的知识沉淀——这突破了传统进化算法或LLM代理缺乏长期记忆与科学推理能力的根本瓶颈。
- 其它亮点在三个AI核心维度均取得SOTA突破:(1)架构:发现105个线性注意力新架构,最优模型DeltaNet+0.97(≈人类3年改进幅度的3倍);(2)数据:演化出的预训练数据管道使MMLU提升超18分;(3)RL算法:在AMC32等数学推理基准上显著超越GRPO。实验严格采用‘固定计算预算+独立验证集+人工盲审确认关键发现’三重控制,代码与部分发现模型已开源(GitHub: asievolve-org)。值得深挖的方向包括:认知基座的知识表征形式化、分析器生成洞见的可验证性评估、向物理仿真与芯片设计等硬科技领域的迁移鲁棒性。
- Recent related works include: 'Self-Improving Language Models through Self-Play' (DeepMind, 2023), 'LLM-based Agent for Automated ML Pipeline Design' (NeurIPS 2023 Spotlight), 'EvoPrompt: Evolutionary Prompt Engineering' (ICLR 2024), 'AutoFormalization with LLMs' (OpenAI & Princeton, 2024), and 'AlphaFold 3’s Iterative Refinement Loop' (Nature, 2024). However, none unify data/architecture/algorithm discovery under a single, analytically grounded, knowledge-accumulating loop like ASI-Evolve.
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流