Token-Efficient Prompt Injection Attack: Provoking Cessation in LLM Reasoning via Adaptive Token Compression

2025年04月29日
  • 简介
    尽管大型语言模型(LLMs)在各种任务中表现出卓越的性能,但它们也存在显著的安全漏洞。近期研究发现,DeepSeek-R1 中存在一种“思维停止”漏洞,模型生成的推理令牌可能强制中断推理过程,导致空白响应,从而影响依赖 LLM 的应用程序的正常运行。然而,现有的触发该漏洞的方法需要复杂的数学文字题,并且提示长度过长——甚至超过 5,000 个令牌。为了降低令牌成本并正式定义这一漏洞,我们提出了一种新的提示注入攻击方法,称为“推理中断攻击”,该方法基于自适应令牌压缩技术。我们证明,简单的独立算术任务可以有效触发这一漏洞,而基于这些任务的提示相较于数学文字题具有更简单的逻辑结构。我们开发了一种系统化的方法来高效收集攻击提示,并构建了一个自适应令牌压缩框架,利用 LLM 自动压缩这些提示。实验结果表明,我们的压缩框架能够在保持攻击有效性的同时显著减少提示长度。此外,我们通过输出前缀进一步分析了攻击的性能,并探讨了漏洞的根本原因,为提升推理型 LLM 的安全性提供了宝贵的见解。
  • 图表
  • 解决问题
    论文试图解决的是大型语言模型(LLMs)中存在的‘思考停止’漏洞问题,特别是DeepSeek-R1模型在处理特定推理任务时可能中断推理并返回空响应的现象。这是一个新发现的安全性问题,需要更高效和简化的触发方法来研究其根本原因。
  • 关键思路
    论文提出了一种名为‘推理中断攻击’的新方法,通过简化逻辑结构的算术任务触发漏洞,相比传统的复杂数学问题大幅减少了所需的token数量。此外,论文还引入了自适应token压缩框架,利用LLMs自动优化攻击提示语句,从而在保持攻击有效性的同时进一步缩短提示长度。
  • 其它亮点
    实验设计严谨,使用简单的算术任务作为触发器,并通过系统化的方法收集攻击提示语句。研究还分析了输出前缀对攻击效果的影响,深入探讨了漏洞的根本原因。代码未提及开源情况,但提出的自适应压缩框架为未来研究提供了新的方向。值得继续深入研究的是如何从模型架构或训练策略上彻底消除此类漏洞。
  • 相关研究
    相关研究包括:1) ‘Evaluating Large Language Models on Security-Critical Tasks’,探讨了LLMs在安全性任务中的表现;2) ‘On the Safety of Instruction-Tuned Language Models’,研究指令调优对模型安全性的影响;3) ‘Adversarial Attacks on Large Language Models via API’,探索通过API实现的对抗性攻击。这些研究共同构成了当前关于LLMs安全性的前沿讨论。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论