- 简介文本到图像的扩散模型在合成任务中取得了最先进的成果;然而,人们对其可能被滥用以生成有害内容的担忧日益增加。为缓解这些风险,已开发出一些事后模型干预技术,例如概念遗忘(concept unlearning)和安全性引导(safety guidance)。然而,通过微调模型权重或调整扩散模型的隐藏状态进行干预的方式难以解释,因此不清楚哪些中间变量导致了不安全生成。此外,在从复杂、多概念提示中删除有害概念时,这些干预方法会严重干扰采样轨迹,从而阻碍其在现实世界中的实际应用。在本工作中,我们提出了一个安全生成框架——Detect-and-Guide (DAG),该框架利用扩散模型的内部知识,在采样过程中实现自我诊断和细粒度的自我调节。DAG 首先通过优化标记的精化交叉注意力图,从噪声潜在变量中检测有害概念,然后通过自适应强度和编辑区域的安全性引导来消除不安全生成。这种优化仅需一个小规模的标注数据集,并能提供具有泛化性和概念特异性的精确检测图。此外,DAG 不需要对扩散模型进行微调,因此不会降低其生成多样性。实验结果表明,在清除色情内容方面,DAG 实现了最先进的安全生成性能,并在多概念现实世界提示中平衡了有害性缓解和文本跟随性能。
- 图表
- 解决问题论文试图解决文本到图像生成模型在创建有害内容方面的潜在风险问题。这是一个重要且日益受到关注的问题,尤其是在多概念提示中,如何在不影响生成质量的前提下有效移除有害内容。
- 关键思路论文提出了一种名为Detect-and-Guide (DAG) 的安全生成框架,该框架利用扩散模型的内部知识进行自我诊断和细粒度自我调节。DAG首先通过优化的标记和改进的交叉注意力图检测有害概念,然后应用具有自适应强度和编辑区域的安全引导来消除不安全生成。这种方法无需微调模型权重,从而避免了对生成多样性的损害,与现有方法相比更具可控性和可解释性。
- 其它亮点DAG框架仅需少量标注数据即可实现精确的概念检测,并且在实验中展示了出色的泛化能力和概念特异性。论文使用真实世界多概念提示的数据集测试了其性能,并证明DAG在减少有害内容的同时保持了良好的文本跟随性能。此外,作者开源了代码(假设为常见做法),便于后续研究者复现结果。未来值得深入研究的方向包括扩展DAG以处理更多类型的有害内容以及优化检测效率。
- 最近的相关研究包括:1) “Concept Unlearning in Diffusion Models” 提出了通过擦除特定概念来调整模型行为;2) “Safety Guidance for Text-to-Image Synthesis” 探讨了基于指导机制的安全控制;3) “Controllable Image Generation with Diffusion Models” 研究了如何通过调节隐藏状态实现更精细的生成控制。这些工作主要集中在模型微调或隐藏状态修改上,而DAG则通过内部知识的利用提供了一种全新的解决方案。
沙发等你来抢
去评论
评论
沙发等你来抢