【标题】Error Controlled Actor-Critic

【作者团队】Xingen Gao, Fei Chao, Changle Zhou

【发表日期】2022.8.27

【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522009896

【推荐理由】在强化学习(RL)算法中,值函数的近似误差不可避免地导致高估现象,这对算法的收敛性有负面影响。为了限制近似误差的负面影响,本文提出了误差控制行为体批评(ECAC),确保近似误差限制在值函数内。作者研究了近似误差如何影响演员-批评家方法的优化过程。此外,推导了Q函数近似器的近似误差的上界,并发现通过在策略训练期间限制每两个连续策略之间的KL-散度,可以减小误差。在各种连续控制任务上的实验表明,所提出的actor-critic方法降低了近似误差,并显著优于先前的无模型RL算法。