最强音频越狱威胁！港科大新基准收集超20万样本｜NeurIPS'25

新智元报道

编辑：LRST

【新智元导读】音频中的强调、语速、语调等隐藏语义可能干扰模型的安全判定，引发新的攻击点。为此，香港科技大学、牛津大学和西安交通大学的研究人员提出了首个全面的音频越狱评测基准Jailbreak-AudioBench，系统分析了模型在面对音频编辑时的鲁棒性差异，并为构建更安全的模型提供方法论基础。

端到端大音频语言模型（End-to-End Large Audio Language Models）正逐步成为语音交互场景与多模态智能感知系统的重要基础设施。

然而，在安全层面，一个已被广泛验证的风险在于：模型可能在特定输入策略的诱导下绕过对齐约束，输出本应被拒绝的有害内容，即「越狱（jailbreak）」。

在文本与视觉模态中，研究者已系统总结出多种成熟的越狱范式，例如提示注入、角色扮演、语义改写，以及图像隐写与对抗扰动等，这些方法均可能削弱模型的拒答机制，并在实际应用中引发安全隐患。

相比之下，音频模态上的越狱研究仍明显不足。音频不仅承载文本语义，还包含强调、语速、语调、音高、口音、背景噪声与情绪等隐藏语义（hidden semantics）信息。

这些看似自然的声学变化，可能在不改变表面文本含义的情况下干扰模型的语义理解与安全判定，从而引入新的攻击面与评测盲区。

然而，现有研究仍缺乏针对「音频隐藏语义越狱」的专门数据集与系统性评测框架。

为填补这一空白，香港科技大学、牛津大学与西安交通大学的研究人员提出了Jailbreak-AudioBench，并在多种具有代表性的开源与商用闭源端到端大音频语言模型上，构建了迄今最为全面的音频越狱评测基准。

论文链接: https://neurips.cc/virtual/2025/loc/san-diego/poster/121592

项目网址：https://researchtopic.github.io/Jailbreak-AudioBench_Page

代码仓库：https://github.com/Researchtopic/Code-Jailbreak-AudioBench

同时，为实现从现象到机理的系统性分析，研究人员进一步探究了不同模型在面对音频编辑时鲁棒性差异的成因，提出可解释的表征层指标，为构建更安全、鲁棒的端到端大音频语言模型提供方法论基础。

在此基础上，研究者们进一步开展拓展研究，以验证Jailbreak-AudioBench对研究社区的广泛价值：（1）揭露更强的越狱威胁，即「组合音频编辑 × 多次查询」；（2）提供一种轻量级、易部署的防御方案。

为什么「音频隐藏语义」会带来新的安全威胁？

「文本越狱」通常关注的是「字面内容」的提示注入；但在音频里，隐藏语义并不一定写在文字里，例如：

强调：重读某个动词/名词，可能提高模型对某类意图的置信度；
语速：过快/过慢会改变语音识别或语音编码器提取到的节奏特征；
语调与音高：上扬、下沉、音高偏移会影响语用层面的「请求力度」和指令性；
噪声与口音：现实场景中的噪声、环境声、口音差异，会导致模型对「同一文本内容」的内部表征偏移；
情绪：大笑、尖叫、愤怒、急促等情绪线索，可能触发不同的对齐/拒答分支。

正因如此，音频越狱不仅是「把文本读出来」，而是引入了一套更复杂、更贴近现实部署的扰动空间，它更加自然、成本低和可迁移，但目前的安全对齐系统依旧缺少针对性评测和预防。

可复用的「音频隐藏语义注入」工具箱和音频越狱数据集

研究人员提供了一个将任意文本请求转换为音频，并支持多种可控编辑来注入隐藏语义（强调/语速/语调/音高/背景噪声/名人口音/情绪）的工具箱(toolbox)，用于系统化构造音频越狱样本。

基于该工具箱，在多套主流文本越狱问题数据集的基础上，通过20类音频编辑生成音频越狱样本变体，构造的整体音频越狱数据集规模为157,782 (主数据集) + 56,742 (附加数据集) 个音频样本。

实验结果

覆盖开源与闭源的音频越狱评测基准

研究人员系统评测了开源BLSP、SpeechGPT、Qwen2-Audio、SALMONN、VITA-1.5、R1-AQA、MiniCPM-o-2.6，以及闭源GPT-4o-Audio、Gemini-2.5-Flash等模型，量化不同音频编辑对攻击成功率（Attack Successful Rate, ASR）的影响，揭示了同样的有害请求，仅改变音频「隐藏语义」，就可能显著改变模型的拒答/越狱表现。

从现象到机理的分析：为什么有些模型对音频编辑更鲁棒？

研究人员进一步分析了不同模型对音频编辑的内部表征机制：通过对音频编码器输出及不同Transformer层隐藏状态的可视化，系统考察了不同编辑类型在表示空间中的聚类与分离特性。

结果表明，对于鲁棒性更强的模型(鲁棒性：Qwen2-Audio-7B>MiniCPM-o-2.6>SALMONN-7B)，随着网络层数的加深，其表示空间会逐步由「按编辑类型聚类」过渡为「按语义聚类」，编辑痕迹逐渐被语义信息所吸收；而对于相对脆弱的模型，编辑类型相关特征在中后层仍然显著存在，使模型更容易受到「隐藏语义」的牵引与误导。

上述发现为后续的越狱防御提供了新的启示：越狱安全问题不仅局限于输出端的「拒答模板」设计，更可能需要从表示学习与对齐策略层面出发，提升模型对音频扰动的语义不变性与稳健判别能力。

因此，这一分析不仅为定量评估端到端大音频语言模型在面对音频隐藏语义干扰时的鲁棒性强弱提供了可解释的表征层指标，也为构建更加准确、鲁棒且具备安全对齐能力的端到端大音频语言模型奠定了方法论基础。

未来应用

Jailbreak-AudioBench启发的拓展研究

更强的音频编辑越狱威胁：组合编辑×多次查询

现实中的越狱攻击往往并非「一次输入定胜负」。

攻击者不仅可以针对同一条音频生成多个不同版本，还能够将多种编辑手段进行混合与叠加（例如同时调整语速、语调与音高，并注入噪声或情绪线索），从而在声学空间中引入更高程度的多样性。

基于这一观察，研究人员提出了一种黑盒（Black-box）、基于查询的音频编辑越狱攻击方法（Query-based Audio Editing Jailbreak Attack），通过对同一样本构造多种混合编辑变体，并借助多次查询机制，系统性地放大越狱成功率。实验结果表明，该方法在多种模型上均显著提升了攻击成功率（ASR）：Qwen2-Audio-7B从13.3%提升至48.8%，SALMONN-7B从31.6%提升至85.1%，GPT-4o-Audio从0.7%提升至8.4%，Gemini-2.5-Flash也从 8.1% 大幅提升至 49.4%

这表明，即便某些模型在「单次、原始音频」条件下看似较为安全，当攻击者采用混合编辑与多次试探相结合的越狱策略时，其潜在风险仍会被系统性放大。

因此，若安全评测忽略这种更贴近真实场景的「组合编辑 + 多次查询」音频越狱攻击设置，便可能显著低估模型在实际部署环境中的安全风险。