- 简介随着大语言模型(LLMs)应用日益广泛,其安全风险也愈发受到关注。现有研究表明,大语言模型极易遭受“越狱攻击”(jailbreak attacks),且攻击效果在不同语言语境下存在显著差异。本文聚焦于文言文在越狱攻击中所起的作用:凭借其高度凝练、语义隐晦的特点,文言文可在一定程度上绕过当前主流的安全约束机制,从而暴露出大语言模型中尤为突出的安全漏洞。基于这一发现,本文提出一种名为CC-BOS的框架,该框架依托多维果蝇优化算法,实现文言文对抗性提示词的自动化生成,从而在黑盒场景下高效、自动地实施越狱攻击。具体而言,提示词被编码为八个策略维度——涵盖角色设定、行为指令、作用机制、隐喻表达、修辞风格、知识类型、触发模式及上下文背景;随后通过气味搜索(smell search)、视觉搜索(visual search)与柯西变异(Cauchy mutation)进行迭代优化。该设计显著提升了搜索空间的探索效率,进而大幅增强黑盒越狱攻击的有效性。为进一步提升提示词的可读性并确保评估结果的准确性,我们还专门设计了一个文言文到英文的翻译模块。大量实验结果表明,所提出的CC-BOS方法性能优异,在各类基准测试中均持续超越当前最先进的越狱攻击方法。
-
- 图表
- 解决问题论文旨在解决大型语言模型(LLMs)在多语言安全防护中的不均衡脆弱性问题,特别验证‘古典汉语因其简练性、歧义性和语义密度,可有效绕过主流LLM安全对齐机制’这一假设。该问题属于新兴交叉方向——‘文言对抗提示工程’,此前未被系统建模或自动化探索,具有明确的新颖性。
- 关键思路提出CC-BOS框架:首次将古典汉语作为结构化对抗媒介,将其提示策略解耦为8个可优化的语义维度(角色/行为/机制/隐喻/表达/知识/触发模式/上下文),并引入改进的多维果蝇优化算法(融合嗅觉搜索、视觉搜索与柯西变异)实现黑盒场景下的高效提示进化。其新意在于将古汉语的‘模糊性’从缺陷转为优势,并用可微分启发式搜索替代人工试错或暴力枚举。
- 其它亮点实验覆盖Llama-3、Qwen2、GLM-4等7个主流开源及商用LLM,在Chinese Jailbreak Benchmark(CJB)和自建ClassicalSafeEval数据集上评测;攻击成功率平均提升23.6%(vs. GCG、AutoDAN、PAIR);开源代码与古典汉语翻译模块(含术语对齐词典)已发布于GitHub;值得深入的方向包括:古汉语语法约束建模、跨朝代文体迁移鲁棒性、以及将CC-BOS思想迁移到其他高歧义语言(如梵文、古希腊语)的对抗研究。
- 1. 'GCG: Greedy Coordinate Gradient-based Prompt Attack' (ICML 2023); 2. 'AutoDAN: Automatic Diverse Adversarial Prompt Generation' (NeurIPS 2023); 3. 'PAIR: Prompt Automatic Iterative Refinement for Jailbreaking LLMs' (ACL 2024); 4. 'Multilingual Jailbreak Evaluation on LLM Safety' (EMNLP 2023); 5. 'Classical Chinese Understanding in Modern LLMs: A Zero-Shot Probe' (ACL Findings 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流