【标题】MAVIPER: Learning Decision Tree Policies for Interpretable Multi-Agent Reinforcement Learning

【作者团队】Stephanie Milani, Zhicheng Zhang, Nicholay Topin

【发表日期】2022.5.25

【论文链接】https://arxiv.org/pdf/2205.12449.pdf

【推荐理由】最近在多智能体强化学习 (MARL) 方面的许多突破都需要使用深度神经网络,这对人类专家的解释和理解具有挑战性。 另一方面,可解释强化学习的现有工作已显示出在提取更多可解释的基于决策树的策略方面的前景,但仅限于单智能体设置。为了填补这一空白,本文提出了第一组可解释的 MARL 算法,这些算法从使用 MARL 训练的神经网络中提取决策树策略。第一个算法 IVIPER 将 VIPER(一种用于单智能体可解释强化学习的最新方法)扩展到多智能体设置。本文证明 IVIPER 可以为每个智能体学习高质量的决策树策略。为了更好地捕捉智能体之间的协调,本文提出了一种新颖的集中式决策树训练算法 MAVIPER。MAVIPER 通过使用其预期树预测其他智能体的行为来共同生长每个智能体的树,并使用重采样来关注与其他智能体交互的状态。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除