- 简介本文研究了深度强化学习(DRL)代理策略中后门的威胁,并提出了一种新的方法来在运行时检测后门。我们的研究重点关注难以检测的分布内后门触发器。这些触发器旨在诱导后门代理的行为偏离,同时融入预期的数据分布以逃避检测。通过在Atari Breakout环境中进行的实验,我们展示了当前的净化方法在面对这样的触发器时的局限性,并探究了它们为什么会带来挑战性的防御问题。然后,我们评估了后门触发器在DRL代理策略网络的神经激活空间中可能更容易检测的假设。我们的统计分析表明,即使触发器在环境中被很好地隐藏,代理策略网络中的激活模式在存在触发器时也是不同的。基于此,我们提出了一种新的防御方法,该方法使用在干净环境样本上训练的分类器来检测异常激活。我们的结果表明,即使是轻量级分类器也可以有效地防止恶意行为,并具有相当高的准确性,这表明这个研究方向即使在面对复杂的对手时也具有潜力。
- 图表
- 解决问题检测深度强化学习代理策略中的后门威胁,并提出一种新的检测方法。
- 关键思路使用代理策略网络的神经激活空间来检测后门触发器,提出一种基于分类器的新的防御方法。
- 其它亮点论文通过在Atari Breakout环境下的实验,展示了当前的消毒方法在面对混入数据分布的后门触发器时的局限性,并说明了这是一个具有挑战性的防御问题。研究表明,使用代理策略网络的神经激活空间进行检测是可行的。论文提出了一种基于分类器的新的防御方法,使用干净环境样本训练分类器并检测异常激活。实验结果表明,即使是轻量级的分类器也可以有效地防止恶意行为。
- 在这个领域中,最近的相关研究包括:'Deep Learning with Differential Privacy'、'Adversarial Attacks and Defenses in Deep Learning'、'Detecting Adversarial Examples in Deep Neural Networks'等。
沙发等你来抢
去评论
评论
沙发等你来抢