厦门理工大学|误差控制的 Actor-Critic

【标题】Error Controlled Actor-Critic

【作者团队】Xingen Gao, Fei Chao, Changle Zhou

【发表日期】2022.8.27

【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522009896

【推荐理由】在强化学习（RL）算法中，值函数的近似误差不可避免地导致高估现象，这对算法的收敛性有负面影响。为了限制近似误差的负面影响，本文提出了误差控制行为体批评（ECAC），确保近似误差限制在值函数内。作者研究了近似误差如何影响演员-批评家方法的优化过程。此外，推导了Q函数近似器的近似误差的上界，并发现通过在策略训练期间限制每两个连续策略之间的KL-散度，可以减小误差。在各种连续控制任务上的实验表明，所提出的actor-critic方法降低了近似误差，并显著优于先前的无模型RL算法。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

厦门理工大学|误差控制的 Actor-Critic

评论