- 简介在强化学习中,连续动作空间通常被定义为区间集合。虽然区间通常能很好地反映任务的动作边界,但由于通常较大的全局动作空间会导致频繁探索无关的动作,因此区间对于学习来说可能具有挑战性。然而,很少的任务知识就足以确定显著较小的状态特定的相关动作集。将学习集中在这些相关动作上可以显著提高训练效率和有效性。在本文中,我们提出了将学习集中在相关动作集上,并引入了三种连续动作屏蔽方法,以确切地将动作空间映射到状态相关的相关动作集。因此,我们的方法确保只执行相关动作,增强了强化学习代理的可预测性,并使其可以在安全关键的应用中使用。我们进一步推导了所提出方法对策略梯度的影响。使用近端策略优化(PPO),我们在三个控制任务上评估了我们的方法,其中相关动作集是基于系统动态和相关状态集计算的。我们的实验表明,相对于没有动作屏蔽的基线,这三种动作屏蔽方法实现了更高的最终奖励,并且收敛更快。
-
- 图表
- 解决问题本文旨在解决强化学习中连续动作空间过大导致探索无效动作的问题,提出了三种连续动作掩蔽方法,以便在状态依赖的相关动作集上进行学习。
- 关键思路本文的关键思路是通过计算系统动力学和相关状态集来确定相关动作集,从而提高学习效率和效果,并确保只有相关动作被执行。
- 其它亮点本文使用Proximal Policy Optimization (PPO)算法,在三个控制任务上评估了三种动作掩蔽方法的效果,结果表明,这三种方法比没有掩蔽的基线方法具有更高的最终奖励和更快的收敛速度。
- 近期的相关研究包括:1. Continuous Control with Deep Reinforcement Learning;2. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor;3. Trust Region Policy Optimization。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流