- 简介深度强化学习(DRL)策略在面对观测中的对抗性噪声时极其脆弱,这给安全关键场景下带来了严重的风险。例如,一个收到被篡改的交通标志感官输入的自动驾驶汽车可能会导致灾难性后果。目前,强化学习算法抵御此类对抗性扰动的策略一般分为两类:(a)使用正则化方法,通过将对抗性损失项纳入价值目标来增强鲁棒性;(b)采用“maximin”原则,侧重于最大化最小值以确保鲁棒性。虽然正则化方法降低了攻击成功的可能性,但如果攻击成功,它们的有效性会显著降低。另一方面,虽然最小化最大值的目标鲁棒性强,但往往过于保守。为了解决这个挑战,我们引入了一种新的目标,称为对抗反事实误差(ACoE),它自然地平衡了优化价值和抵御对抗攻击的鲁棒性。为了在无模型的设置中以可扩展的方式优化ACoE,我们提出了一种理论上证明的替代目标,称为累积ACoE(C-ACoE)。优化C-ACoE的核心思想是利用对抗性扰动观测下真实状态的信念。我们的实证评估表明,我们的方法在解决对抗性强化学习问题的所有已建立基准(MuJoCo、Atari和Highway)中优于当前的最先进方法。
- 图表
- 解决问题解决问题:如何提高深度强化学习模型对于对抗性干扰的鲁棒性?
- 关键思路关键思路:提出了一种新的目标函数Adversarial Counterfactual Error (ACoE),通过优化ACoE来平衡模型的价值最大化和鲁棒性,同时提出了一种可扩展的理论上合理的替代目标函数Cumulative-ACoE (C-ACoE)来优化ACoE。
- 其它亮点亮点:实验表明,该方法在MuJoCo、Atari和Highway等基准数据集上均优于当前解决对抗性强化学习问题的最先进方法。此外,该论文还提供了开源代码。
- 相关研究:其他相关研究包括“Regularized Adversarial Training for Robust Reinforcement Learning”和“Robust Adversarial Reinforcement Learning”的论文。
沙发等你来抢
去评论
评论
沙发等你来抢