【论文标题】通过嵌入自我预测强化学习的对比解释 Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions
【作者团队】Zhengxian Lin Kim-Ho Lam Alan Fern
【论文链接】https://arxiv.org/pdf/2010.05180.pdf
【推荐理由】本文研究了一种深度强化学习(RL)架构,它支持解释为什么学习的智能体更喜欢一个动作而不是另一个动作。关键思想是学习动作-价值,通过人类可理解的预期未来属性直接表示。这是通过嵌入式自我预测(ESP)模型实现的,该模型根据人类提供的特征学习所述属性。然后可以通过对比为每个动作预测的未来属性来解释动作偏好。为了解决存在大量特征的情况,本文开发了一种从ESP中计算最小充分解释的新方法。本文通过在三个领域的案例研究(包括一个复杂的策略游戏)表明,ESP模型可以被有效地学习,并支持有洞察力的解释。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢