【标题】Reinforcement Learning under Partial Observability Guided by Learned Environment Models
【作者团队】Edi Muskardin, Martin Tappler, Bernhard K. Aichernig, Ingo Pill
【发表日期】2022.6.23
【论文链接】https://arxiv.org/pdf/2206.11708.pdf
【推荐理由】在实际应用中,很少能够假设系统环境的完全可观测性,尽管这些知识对于确定无功控制系统与其环境的精确交互非常重要。因此,本文提出了一种在部分可观测环境中进行强化学习的方法。虽然假设环境行为类似于具有已知离散动作的部分可观测马尔可夫决策过程,但假设不知道其结构或转移概率。该方法将Q-学习与IoAlergia相结合,一种学习马尔可夫决策过程(MDP)的方法。通过从RL代理的事件中学习环境的MDP模型,可以在部分可观察域中启用RL,而无需显式的额外内存来跟踪先前的交互,以处理部分可观察性产生的歧义。相反,通过模拟学习环境模型上的新经验来跟踪探索的状态,以抽象环境状态的形式为RL提供额外的观察。在评估中,本文报告了该方法的有效性及其与六种具有循环神经网络和固定记忆的最新深度RL技术相比的良好性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢