【标题】An Approximate Reinforcement Learning Algorithm for Controlled Diffusion Processes

【作者团队】Erhan Bayraktar, Ali Devran Kara

【发表日期】2022.3.16

【论文链接】https://arxiv.org/pdf/2203.07499.pdf

【推荐理由】本文研究了连续时间随机控制问题的强化学习算法。所提出的算法通过在分段恒定控制过程下离散状态和控制动作空间来使用采样状态过程。本文证明了该算法收敛于有限马尔可夫决策过程(MDP)的最优性方程。利用这个MDP模型,给出了连续时间控制问题最优值函数的逼近误差的上界。此外,本文给出了与原问题的最优容许控制过程相比,学习控制过程的性能损失的上界。所提供的误差上界是时间和空间离散化参数的函数,它们揭示了不同近似级别的影响:(i)用MDP近似连续时间控制问题,(ii)使用分段常数控制过程,(iii)空间离散化。最后,本文给出了该算法的时间复杂度界,作为时间和空间离散化参数的函数。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除