【标题】Partial Consistency for Stabilizing Undiscounted Reinforcement Learning

【作者团队】Haichuan Gao,Zhile Yang,Tian Tan,Tianren Zhang,Jinsheng Ren

【发表日期】2022.4.25

【论文链接】https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9762369

【推荐理由】无折扣回报是强化学习(RL)中的一个重要设置,它表征了许多现实问题。然而,优化无折扣回报往往会导致训练不稳定。现有研究尚未深入分析这种不稳定问题的原因。本文从价值评估的角度对这一问题进行了分析。分析结果表明,这种不稳定性源于不一致选择的动作引起的瞬态陷阱。然而,在同一个状态选择一个一致的行动会限制探索。为了平衡探索有效性和训练稳定性,提出了一种新的采样方法,称为最后访问采样(LVS),以确保在相同状态下一致地选择部分动作。LVS方法将状态动作值分解为两部分,即最后一次访问(LV)值和重新访问值。分解确保LV值由一致选择的动作确定。本文证明了LVS方法可以消除瞬态陷阱,同时保持最优性。

内容中包含的图片若涉及版权问题,请及时与我们联系删除