图片

论文链接:https://arxiv.org/abs/2302.05209

虽然强化学习(RL)在许多领域的连续决策问题上取得了巨大的成功,但它仍然面临着数据效率低下和缺乏可解释性的关键挑战。有趣的是,近年来,许多研究人员利用因果关系文献的见解,提出了大量统一因果关系优点的著作,并很好地解决了RL带来的挑战。因此,整理这些因果强化学习(CRL)著作,回顾CRL方法,研究因果强化学习的潜在功能是非常必要和有意义的。特别是,我们根据现有CRL方法是否预先给出基于因果关系的信息,将其分为两类。我们从不同模型的形式化方面进一步分析了每个类别,包括马尔可夫决策过程(MDP)、部分观察马尔可夫决策过程(POMDP)、多臂赌博机(MAB)和动态处理制度(DTR)。此外,我们总结了评估矩阵和开源,同时我们讨论了新兴的应用程序。

内容中包含的图片若涉及版权问题,请及时与我们联系删除