- 简介本文针对深度强化学习(DRL)训练过程中数据利用率和可解释性的挑战,提出了一种新的方法,通过关注时间序列中时间维度内的时间相关性来将多元时间序列划分为有意义的子序列,并基于这些子序列来表示时间序列。此外,这些子序列还被用于因果推断,以识别对训练结果有显著影响的基本因果因素。我们设计了一个模块,在DRL训练过程中提供因果反馈。多个实验证明了我们的方法在常见环境中的可行性,确认其能够提高DRL训练的效果并赋予一定的可解释性。此外,我们还通过优先经验回放算法扩展了我们的方法,实验结果证明了我们方法的持续有效性。
- 图表
- 解决问题提高DRL训练的数据利用率和可解释性
- 关键思路将多元时间序列分段,并基于这些子序列表示时间序列,进行因果推断,识别对训练结果显著影响的因素,并设计模块为DRL训练提供因果反馈
- 其它亮点实验结果表明该方法在常见环境中有效,能够提高DRL训练效果并在一定程度上增加可解释性,还扩展了优先级经验回放算法,开源了代码
- 相关研究包括:'Deep Reinforcement Learning with Double Q-learning','Prioritized Experience Replay','Causal Inference in Statistics: An Overview'
沙发等你来抢
去评论
评论
沙发等你来抢