- 简介政策优化(PO)方法是实践中最流行的强化学习(RL)算法之一。最近,Sherman等人[2023a]提出了一种基于PO的算法,在线性马尔可夫决策过程(MDP)模型下具有速率最优的遗憾保证。然而,他们的算法依赖于一个昂贵的纯探索热身阶段,这在实践中很难实现。本文通过一个简单而高效的收缩机制,消除了这个不受欢迎的热身阶段。我们的PO算法在两个基本设置中实现了速率最优的遗憾保证,并改善了对问题的其他参数(时间跨度和函数逼近维度)的依赖:具有全信息反馈的对抗性损失和具有赌徒反馈的随机损失。
- 图表
- 解决问题本论文旨在解决基于线性MDP模型下PO算法存在的不必要的探索预热阶段的问题,提出了一种简单高效的收缩机制来代替预热阶段。
- 关键思路本论文的关键思路是通过收缩机制来代替PO算法中的探索预热阶段,从而实现在两种基本设置下的速率最优遗憾保证。
- 其它亮点论文在两种基本设置下都实现了速率最优遗憾保证,并且相比之前的PO算法,对问题的其他参数(如时间长度和函数逼近维度)的依赖性得到了改善。实验结果表明,该算法在实践中具有可行性和有效性。
- 最近的相关研究包括Sherman等人提出的基于线性MDP模型的PO算法,以及其他PO算法在不同设置下的应用研究。
沙发等你来抢
去评论
评论
沙发等你来抢