SAFE-RL: Saliency-Aware Counterfactual Explainer for Deep Reinforcement Learning Policies

简介

深度强化学习（DRL）已成为解决复杂控制任务的有前途的解决方案，但所学策略的缺乏可解释性阻碍了其在安全关键应用中的应用，例如自动驾驶系统（ADS）。反事实（CF）解释最近因其解释黑盒深度学习（DL）模型的能力而备受关注。 CF示例与输入中的最小变化相关联，从而导致DL模型的补充输出。对于高维视觉输入，找到这样的变化面临着巨大的挑战。此外，DRL代理行动依赖于过去状态观察历史记录所引入的时间依赖性进一步复杂化了CF示例的生成。为了解决这些挑战，我们建议使用显着性图来识别代理人在过去观察到的状态序列中最有影响力的输入像素。然后，我们将这个显着性图馈送到深度生成模型中，从而使得在显著区域中进行约束修改的可信CF的生成成为可能。我们使用传统的性能指标（如有效性，接近度和稀疏性）在不同的领域中评估了我们框架的有效性，包括ADS，Atari Pong，Pacman和太空侵略者游戏。实验结果表明，与现有技术相比，这个框架在广泛的环境和DRL代理中生成了更具信息性和可信度的CF。为了促进这个领域的研究，我们已经公开了我们的数据集和代码，网址为https://github.com/Amir-Samadi/SAFE-RL。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决DRL在安全关键应用中的可解释性问题，提出使用对抗性样本生成算法生成可解释的对抗性样本，从而解释DRL模型的决策过程。
关键思路

使用显著性图和深度生成模型生成可解释的对抗性样本，以揭示DRL模型的决策过程。
其它亮点

论文通过在多个环境和DRL代理上进行实验，证明了该算法相对于现有算法在生成更具信息量和可信度的对抗性样本方面的优越性。研究者还开放了数据集和代码以促进该领域的进一步研究。
相关研究

在解释DRL模型方面，最近的相关研究包括“Interpretable Reinforcement Learning Through Policy Extraction”、“Deep Reinforcement Learning from Human Preferences”和“Learning Causal State Representations of Partially Observable Environments”。

SAFE-RL: Saliency-Aware Counterfactual Explainer for Deep Reinforcement Learning Policies

提问交流

提问交流