- 简介深度强化学习代理容易出现目标不一致的问题。它们的策略黑盒的性质阻碍了这种不一致性的检测和纠正,也阻碍了在现实世界中的部署所需的信任。到目前为止,学习可解释策略的解决方案效率低下或需要许多人类先验知识。我们提出了INTERPRETER,这是一种快速的蒸馏方法,用于生成适用于强化学习的可解释可编辑树形程序。我们通过实验证明了,在各种连续决策任务中,INTERPRETER生成的紧凑树形程序与oracle相匹配,同时评估了我们在可解释性和性能方面的设计选择对结果的影响。我们展示了我们的策略可以被解释和编辑以纠正Atari游戏中的不一致性并解释真实的农业策略。
- 图表
- 解决问题论文旨在解决深度强化学习中的目标失配问题,提出一种快速的可解释树形程序方法,以便更好地检测和纠正目标失配问题。
- 关键思路INTERPRETER是一种快速的蒸馏方法,可以生成可解释的可编辑树形程序,以解决深度强化学习中的目标失配问题。
- 其它亮点论文通过实验证明INTERPRETER可以在多个序列决策任务中与Oracle匹配,并评估了设计选择对可解释性和性能的影响。此外,论文还展示了如何使用这种方法来解释和纠正Atari游戏中的目标失配问题以及解释真实的农业策略。
- 在这个领域中,最近的相关研究包括《Interpretable Reinforcement Learning Using Policy Trees》和《Towards Interpretable Reinforcement Learning Using Attention Augmented Agents》。
沙发等你来抢
去评论
评论
沙发等你来抢