Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

向作者提问

NEW

简介

像Claude Code这样的大语言模型（LLM）智能体，不仅能编写代码，还可用于自主开展人工智能领域的研究与工程实践 \citep{rank2026posttrainbench, novikov2025alphaevolve}。我们证明：一种基于Claude Code驱动的“自主研究”（autoresearch）式流水线 \citep{karpathy2026autoresearch}，成功发现了全新的白盒对抗攻击**算法**；在越狱（jailbreaking）与提示注入（prompt injection）评测中，这些算法**显著超越所有现有（30余种）方法**。该智能体从现有攻击实现（例如GCG~\citep{zou2023universal}）出发，通过多轮迭代演化，生成新型攻击算法；在针对GPT-OSS-Safeguard-20B模型的CBRN类查询上，其攻击成功率最高达40%，而现有各类算法的对应成功率均不高于10%（见图\ref{fig:teaser}左图）。所发现的算法具备良好泛化能力：在代理模型（surrogate models）上优化得到的攻击，可直接迁移到未参与训练的保留模型（held-out models）上，并在Meta-SecAlign-70B模型 \citep{chen2025secalign} 上实现**100%的攻击成功率（ASR）**，远超当前最优基线方法的56%（见图\ref{fig:teaser}中图）。延续Carlini等人在~\cite{carlini2025autoadvexbench}中的研究发现，我们的结果首次初步表明：安全与安保领域的渐进式研究工作，确实可通过LLM智能体实现自动化。其中，白盒对抗式红队演练（white-box adversarial red-teaming）尤为适合此类自动化路径——既有的攻击方法为智能体提供了坚实的起点，而明确、稠密且可量化的优化目标（如攻击成功率）则为其迭代演进提供了高质量反馈信号。我们已将所有新发现的攻击算法、基线实现及评测代码全部开源，详见：https://github.com/romovpa/claudini。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在验证：基于LLM的自主研究代理（如Claude Code）能否在白盒对抗性红队测试中自动发现新型、可泛化的提示注入与越狱攻击算法，从而系统性提升大模型安全评估能力。这不是全新问题（红队测试和自动攻击生成已有探索），但首次将'autoresearch'范式完整应用于安全算法的端到端发现与优化，且聚焦于可解释、可复现的白盒算法级创新（而非黑盒提示工程），属方法论层面的重要推进。
关键思路

提出'autoresearch-style pipeline'——以现有攻击代码（如GCG）为起点，利用Claude Code作为自主AI研究员，通过多轮代码编写、分析、假设生成、实验验证与算法抽象，迭代演化出结构新颖、原理清晰的白盒攻击算法（如动态梯度掩码、token语义解耦扰动等）。关键新意在于：将AI安全研究本身形式化为可自动优化的软件工程任务，依赖密集量化反馈（ASR）驱动算法级创新，而非仅调参或组合已有技术。
其它亮点

实验设计严谨：在CBRN高风险查询集上评估越狱能力（主指标ASR），使用GPT-OSS-Safeguard-20B为靶标模型，并验证跨模型泛化性（Meta-SecAlign-70B达100% ASR）；对比30+现有方法（含GCG、AutoDAN、PAIR等）；所有攻击实现、基线代码、评估框架已开源至GitHub（https://github.com/romovpa/claudini）；结果表明自动化发现的算法不仅性能突破显著（+30pp绝对提升），且具备强可解释性（白盒）和迁移鲁棒性；值得深入的方向包括：将该pipeline扩展至防御算法自动发现、建立安全研究的自动验证与可证性框架、探索人类-AI协同研究协议。
相关研究

Carlini et al., 'AutoAdvExBench: A Benchmark for Automated Adversarial Example Generation' (2025); Rank et al., 'Post-Training Benchmarks for Evaluating Safety Alignment' (2026); Novikov et al., 'AlphaEvolve: Evolving AI Systems via LLM-Based Self-Improvement' (2025); Karpathy et al., 'AutoResearch: Towards Autonomous AI-Driven Scientific Discovery' (2026); Zou et al., 'Universal and Transferable Adversarial Attacks on Aligned Language Models' (GCG, 2023); Chen et al., 'SecAlign: A Safety-Aligned Open-Weight LLM Suite' (2025)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问