Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

2026年03月25日
  • 简介
    像Claude Code这样的大语言模型(LLM)智能体,不仅能编写代码,还可用于自主开展人工智能领域的研究与工程实践 \citep{rank2026posttrainbench, novikov2025alphaevolve}。我们证明:一种基于Claude Code驱动的“自主研究”(autoresearch)式流水线 \citep{karpathy2026autoresearch},成功发现了全新的白盒对抗攻击**算法**;在越狱(jailbreaking)与提示注入(prompt injection)评测中,这些算法**显著超越所有现有(30余种)方法**。 该智能体从现有攻击实现(例如GCG~\citep{zou2023universal})出发,通过多轮迭代演化,生成新型攻击算法;在针对GPT-OSS-Safeguard-20B模型的CBRN类查询上,其攻击成功率最高达40%,而现有各类算法的对应成功率均不高于10%(见图\ref{fig:teaser}左图)。 所发现的算法具备良好泛化能力:在代理模型(surrogate models)上优化得到的攻击,可直接迁移到未参与训练的保留模型(held-out models)上,并在Meta-SecAlign-70B模型 \citep{chen2025secalign} 上实现**100%的攻击成功率(ASR)**,远超当前最优基线方法的56%(见图\ref{fig:teaser}中图)。 延续Carlini等人在~\cite{carlini2025autoadvexbench}中的研究发现,我们的结果首次初步表明:安全与安保领域的渐进式研究工作,确实可通过LLM智能体实现自动化。其中,白盒对抗式红队演练(white-box adversarial red-teaming)尤为适合此类自动化路径——既有的攻击方法为智能体提供了坚实的起点,而明确、稠密且可量化的优化目标(如攻击成功率)则为其迭代演进提供了高质量反馈信号。 我们已将所有新发现的攻击算法、基线实现及评测代码全部开源,详见:https://github.com/romovpa/claudini。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文旨在验证:基于LLM的自主研究代理(如Claude Code)能否在白盒对抗性红队测试中自动发现新型、可泛化的提示注入与越狱攻击算法,从而系统性提升大模型安全评估能力。这不是全新问题(红队测试和自动攻击生成已有探索),但首次将'autoresearch'范式完整应用于安全算法的端到端发现与优化,且聚焦于可解释、可复现的白盒算法级创新(而非黑盒提示工程),属方法论层面的重要推进。
  • 关键思路
    提出'autoresearch-style pipeline'——以现有攻击代码(如GCG)为起点,利用Claude Code作为自主AI研究员,通过多轮代码编写、分析、假设生成、实验验证与算法抽象,迭代演化出结构新颖、原理清晰的白盒攻击算法(如动态梯度掩码、token语义解耦扰动等)。关键新意在于:将AI安全研究本身形式化为可自动优化的软件工程任务,依赖密集量化反馈(ASR)驱动算法级创新,而非仅调参或组合已有技术。
  • 其它亮点
    实验设计严谨:在CBRN高风险查询集上评估越狱能力(主指标ASR),使用GPT-OSS-Safeguard-20B为靶标模型,并验证跨模型泛化性(Meta-SecAlign-70B达100% ASR);对比30+现有方法(含GCG、AutoDAN、PAIR等);所有攻击实现、基线代码、评估框架已开源至GitHub(https://github.com/romovpa/claudini);结果表明自动化发现的算法不仅性能突破显著(+30pp绝对提升),且具备强可解释性(白盒)和迁移鲁棒性;值得深入的方向包括:将该pipeline扩展至防御算法自动发现、建立安全研究的自动验证与可证性框架、探索人类-AI协同研究协议。
  • 相关研究
    Carlini et al., 'AutoAdvExBench: A Benchmark for Automated Adversarial Example Generation' (2025); Rank et al., 'Post-Training Benchmarks for Evaluating Safety Alignment' (2026); Novikov et al., 'AlphaEvolve: Evolving AI Systems via LLM-Based Self-Improvement' (2025); Karpathy et al., 'AutoResearch: Towards Autonomous AI-Driven Scientific Discovery' (2026); Zou et al., 'Universal and Transferable Adversarial Attacks on Aligned Language Models' (GCG, 2023); Chen et al., 'SecAlign: A Safety-Aligned Open-Weight LLM Suite' (2025)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问