- 简介最近大型语言模型(LLMs)的进展使它们成为不可或缺的工具,但也引发了管理其安全性的重大关切。自动化的红队测试提供了一种有前途的替代方案,可以代替费力且容易出错的手动漏洞探测,提供更加一致和可扩展的安全评估。然而,现有方法通常通过专注于最大化攻击成功率来牺牲多样性。此外,通过减少历史嵌入的余弦相似度并带有语义多样性奖励的方法会导致随着历史的增长而导致新颖性停滞。为了解决这些问题,我们介绍了DiveR-CT,它放宽了目标和语义奖励的传统约束,为策略提供了更大的自由度以增强多样性。我们的实验表明,DiveR-CT在以下方面显著优于基线:1)生成的数据在不同攻击成功率水平下表现出更好的各种多样性指标;2)通过基于收集到的数据进行安全调整,更好地增强了蓝队模型的弹性;3)允许动态控制目标权重,以获得可靠和可控的攻击成功率;4)减少对奖励过度优化的敏感性。项目详细信息和代码可在https://andrewzh112.github.io/#diverct找到。
- 图表
- 解决问题论文旨在解决大语言模型的安全性管理问题,提出了一种自动化的红队测试方法,但现有方法在攻击成功率最大化方面存在多样性不足的问题,以及在语义多样性奖励方面存在新颖性停滞的问题。
- 关键思路文章提出了DiveR-CT方法,通过松弛传统约束条件的目标和语义奖励,给予策略更大的自由度来增强多样性。DiveR-CT在生成数据方面表现出比基线更好的多样性指标,并且通过收集数据进行安全调整,更好地增强了蓝队模型的韧性。此外,DiveR-CT还允许动态控制目标权重,以实现可靠和可控的攻击成功率,并减少奖励过度优化的影响。
- 其它亮点DiveR-CT方法在多样性方面表现优异,能够提高蓝队模型的韧性,具有动态控制目标权重的能力,并减少奖励过度优化的影响。实验使用了自己构建的数据集,并提供了开源代码。
- 最近的相关研究包括:1)使用自适应目标权重的强化学习方法,2)使用GAN生成对抗样本进行安全性评估,3)使用迁移学习提高攻击成功率。
沙发等你来抢
去评论
评论
沙发等你来抢