随着大语言模型（LLM）与多模态模型（VLM）在生产环境的爆发式应用，“内容安全”已成为一道绕不开的防线。然而，目前的防御范式大多采取“后置检测”模式——即等模型生成完整答案后，再进行二次审查。这种“先污染、后治理”的模式，不仅存在明显的防御滞后，效率与检测能力还存在“两难抉择”。

近日，阿里安全AIGC安全团队发表的最新研究成果PlugGuard被人工智能领域顶级会议ICML 2026正式录用。该研究跳出了传统的“事后审查”思维，提出了一套兼具超高精度与毫秒级效率的流式防御框架。

ICML（International Conference on Machine Learning）是全球公认的机器学习领域最具影响力的顶级学术会议之一，也是CCF推荐的A类国际会议, 录用率为 26.6%。ICML 汇聚了全球AI领域的顶尖学者与工业界创新者，其录用论文代表了相关领域最前沿的学术水平。

论文链接：

https://arxiv.org/abs/2510.09694

项目地址：

https://github.com/Alibaba-AAIG/Kelp

如今大模型的安全防护分为两种模式：

🎈传统“后置检测”（Post-hoc Detection）：这是目前主流的方案。模型必须先把一段完整的内容生成出来，防御系统才能开始工作。如果这段话包含违规信息，那它已经完整展示给用户，即便最后被撤回，风险早已暴露。这不仅导致了严重的防御滞后，还产生了额外的审查延时。

🎈流式实时防御（Streaming Detection）：在生成过程中执行流式、逐词元（per-token）的安全性预测。使得系统能够以极少的训练参数和极低的延迟，实现即时干预。

流式防御可以将安全防线从“响应生成后”前移至“解码过程中”，化解了内容泄露与防御滞后的问题，实现安全防控与生成体验的同步兼顾。

长期以来，流式安全防御的研究受困于一个核心难题：缺乏科学的评估标准。现有的端到端安全评测中的模型回复大多依赖于静态语料库，这些数据源往往来自异构模型或人工撰写，无法真实模拟目标模型在解码过程中（token-by-token）产生的实时风险分布。这种“脱离目标模型”的评测方式，无法准确评估安全护栏实际嵌入到解码流程中，究竟能真正阻止多少不安全内容的产生。

为了填补这一空白，阿里安全团队构建了业界首个模型相关的（Model-dependent）流式防御基准——StreamGuardBench。该基准具备三大核心特性：

忠实还原生成轨迹：基准中的每一条响应，均由待测的特定目标模型（涵盖Qwen、Llama等10款主流模型）实时生成，确保了“防御对象”与“测试对象”的一致性。

覆盖风险全：整合了WildGuard、S-Eval等权威数据集，覆盖多种复杂风险场景，包含图片和文本模态。

大规模实战验证：包含26.8万对query-response样本，为防御技术提供了真实可靠的“安全试金石”。