The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs

2025年07月15日
  • 简介
    基于扩散的大型语言模型(dLLM)最近成为自回归大型语言模型的一种强大替代方案,通过并行解码和双向建模,提供了更快的推理速度和更强的交互性。然而,尽管dLLM在代码生成和文本填充任务中表现出色,我们发现了一个根本性的安全问题:现有的对齐机制无法有效防止dLLM应对上下文感知的、针对掩码输入的对抗性提示,暴露出新的安全漏洞。 为此,我们提出了DIJA,这是首个系统性研究并构建越狱攻击框架的工作,专门利用dLLM独特的安全弱点。具体来说,DIJA构造了对抗性的交错掩码-文本提示,利用dLLM的文本生成机制,即双向建模和并行解码。双向建模促使模型即使在有害内容存在的情况下,也会为被掩码的片段生成与上下文一致的输出;而并行解码则限制了模型对不安全内容进行动态过滤和拒绝采样的能力。这导致标准的对齐机制失效,使得经过对齐调优的dLLM仍然可能生成有害内容,即使越狱提示中直接暴露了有害行为或不安全指令。 通过全面的实验,我们证明了DIJA显著优于现有的越狱方法,揭示了dLLM架构中此前被忽视的威胁面。值得注意的是,我们的方法在Dream-Instruct数据集上基于关键词的ASR(攻击成功率)达到了最高100%,在JailbreakBench上基于评估器的ASR比目前最强的基线方法ReNeLLM高出最多78.5%,在StrongREJECT评分上高出37.7分。此外,我们的方法无需对越狱提示中的有害内容进行重写或隐藏。 我们的研究结果强调了在这一新兴语言模型类别中重新思考安全对齐机制的迫切需求。代码已公开在 https://github.com/ZichenWen1/DIJA。
  • 作者讲解·1
  • 图表
  • 解决问题
    该论文旨在揭示扩散型大语言模型(dLLMs)在安全对齐机制方面存在的漏洞,尤其是在面对上下文感知、掩码输入的对抗性提示时的脆弱性。这是一个新发现的问题,表明当前的安全防护措施无法有效保护dLLMs免受特定类型的攻击。
  • 关键思路
    作者提出了一种名为DIJA的系统化对抗攻击框架,利用了dLLMs的两个关键特性:双向建模和平行解码。DIJA通过构造交织的掩码文本提示来诱导模型生成有害内容,从而突破现有对齐机制的限制。这种思路首次将dLLMs的独特架构特性与安全漏洞相结合,为模型安全性研究提供了新的视角。
  • 其它亮点
    1. DIJA是首个专门针对dLLMs安全弱点的系统性攻击方法。 2. 实验结果显示DIJA在多个评估指标上显著优于现有攻击手段,例如在Dream-Instruct上实现了100%的关键词攻击成功率,在JailbreakBench上的Evaluator-Based ASR比ReNeLLM高出78.5%,StrongREJECT得分提高37.7点。 3. 攻击无需重写或隐藏有害内容,直接暴露危险指令即可成功。 4. 代码已开源(https://github.com/ZichenWen1/DIJA),便于后续研究和复现。 5. 强调了重新思考适用于新型生成模型的安全对齐策略的紧迫性。
  • 相关研究
    1. ReNeLLM: A Jailbreaking Framework for Autoregressive Large Language Models 2. Adversarial Prompting for Text Generation Models 3. Security Analysis of Transformer-based Language Models 4. Mitigating Harmful Content in Large Language Models through Alignment Techniques 5. Parallel Decoding and Its Implications on Model Security
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问