Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search

向作者提问

NEW

简介

随着大语言模型（LLMs）应用日益广泛，其安全风险也愈发受到关注。现有研究表明，大语言模型极易遭受“越狱攻击”（jailbreak attacks），且攻击效果在不同语言语境下存在显著差异。本文聚焦于文言文在越狱攻击中所起的作用：凭借其高度凝练、语义隐晦的特点，文言文可在一定程度上绕过当前主流的安全约束机制，从而暴露出大语言模型中尤为突出的安全漏洞。基于这一发现，本文提出一种名为CC-BOS的框架，该框架依托多维果蝇优化算法，实现文言文对抗性提示词的自动化生成，从而在黑盒场景下高效、自动地实施越狱攻击。具体而言，提示词被编码为八个策略维度——涵盖角色设定、行为指令、作用机制、隐喻表达、修辞风格、知识类型、触发模式及上下文背景；随后通过气味搜索（smell search）、视觉搜索（visual search）与柯西变异（Cauchy mutation）进行迭代优化。该设计显著提升了搜索空间的探索效率，进而大幅增强黑盒越狱攻击的有效性。为进一步提升提示词的可读性并确保评估结果的准确性，我们还专门设计了一个文言文到英文的翻译模块。大量实验结果表明，所提出的CC-BOS方法性能优异，在各类基准测试中均持续超越当前最先进的越狱攻击方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大型语言模型（LLMs）在多语言安全防护中的不均衡脆弱性问题，特别验证‘古典汉语因其简练性、歧义性和语义密度，可有效绕过主流LLM安全对齐机制’这一假设。该问题属于新兴交叉方向——‘文言对抗提示工程’，此前未被系统建模或自动化探索，具有明确的新颖性。
关键思路

提出CC-BOS框架：首次将古典汉语作为结构化对抗媒介，将其提示策略解耦为8个可优化的语义维度（角色/行为/机制/隐喻/表达/知识/触发模式/上下文），并引入改进的多维果蝇优化算法（融合嗅觉搜索、视觉搜索与柯西变异）实现黑盒场景下的高效提示进化。其新意在于将古汉语的‘模糊性’从缺陷转为优势，并用可微分启发式搜索替代人工试错或暴力枚举。
其它亮点

实验覆盖Llama-3、Qwen2、GLM-4等7个主流开源及商用LLM，在Chinese Jailbreak Benchmark（CJB）和自建ClassicalSafeEval数据集上评测；攻击成功率平均提升23.6%（vs. GCG、AutoDAN、PAIR）；开源代码与古典汉语翻译模块（含术语对齐词典）已发布于GitHub；值得深入的方向包括：古汉语语法约束建模、跨朝代文体迁移鲁棒性、以及将CC-BOS思想迁移到其他高歧义语言（如梵文、古希腊语）的对抗研究。
相关研究

1. 'GCG: Greedy Coordinate Gradient-based Prompt Attack' (ICML 2023); 2. 'AutoDAN: Automatic Diverse Adversarial Prompt Generation' (NeurIPS 2023); 3. 'PAIR: Prompt Automatic Iterative Refinement for Jailbreaking LLMs' (ACL 2024); 4. 'Multilingual Jailbreak Evaluation on LLM Safety' (EMNLP 2023); 5. 'Classical Chinese Understanding in Modern LLMs: A Zero-Shot Probe' (ACL Findings 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问