介绍一篇首次将因果推理引入部分可观测强化学习的 AAAI 2023 论文,《Fast Counterfactual Inference for History-Based Reinforcement Learning》。
贡献总结
本文提出一种快速因果推理算法,使得因果推理的计算复杂度大幅降低——降低到可以和 online 强化学习相结合的程度。理论贡献主要有两点:1)提出了时间平均因果效应的概念;2)将著名的后门准则从单变量干预效应估计推广到多变量干预效应估计,称之为步进后门准则。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢