DynaGuard: A Dynamic Guardrail Model With User-Defined Policies

2025年09月02日
  • 简介
    Guardian模型用于监督和管理面向用户的聊天机器人的输出,执行防护规则并检测不良行为。像LlamaGuard这样的标准Guardian模型可以检测预定义的、静态类型的危害内容。我们提出了动态Guardian模型,它根据用户自定义的政策来评估文本,使其适用于标准Guardian模型无法覆盖的多种应用场景。我们的动态Guardian模型既可用于快速检测违反政策的内容,也可结合思维链推理对模型输出进行详细说明和论证。在检测静态危害类别方面,我们的动态Guardian模型与静态模型的准确性相当,同时在识别自由形式政策违规方面,其准确性与前沿的推理模型相当,但仅需其一小部分时间。
  • 图表
  • 解决问题
    论文试图解决标准守护模型(如LlamaGuard)只能检测预定义、静态类别危害的问题,无法适应用户自定义策略或特定应用场景的灵活性需求。这是一个随着AI应用领域不断扩展而逐渐显现的新问题。
  • 关键思路
    提出“动态守护模型”(Dynamic Guardian Models),能够根据用户定义的自由形式政策评估文本内容,从而在不同应用领域中灵活检测政策违规行为。相比传统模型,这种基于策略的动态评估方式更具适应性和实用性。
  • 其它亮点
    1. 动态守护模型在静态危害类别的检测准确率上与标准模型相当。 2. 在自由形式政策违规检测方面,其准确率可与前沿推理模型媲美,但推理速度更快。 3. 支持两种使用模式:快速检测模式和带有推理链(Chain-of-Thought)解释的模式。 4. 实验验证了模型在多类政策违规场景下的有效性,但论文未明确提及是否开源或使用了哪些具体数据集。 5. 未来可探索如何将动态策略评估机制集成到实时对话系统中,提升部署灵活性和可解释性。
  • 相关研究
    1. LlamaGuard: An Open Guard for LLM-Powered Systems 2. Aligning Language Models with Evaluation by Contextualizing Safety Policies 3. PromptGuard: Detecting and Mitigating Prompt Injection Attacks in LLMs 4. Policy Tuning: Customizing Language Models for Specific Ethical and Regulatory Requirements 5. Safeguarding Language Models via Plug-and-Play Policy Modules
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论