HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios

简介

路径规划在自动停车中起着关键作用，但目前的方法难以有效处理复杂多样的停车场景。一种潜在的解决方法是基于强化学习的方法，利用其在未记录情况下的探索能力。然而，训练强化学习方法的一个关键挑战是收敛到可行策略的固有随机性。本文提出了一种新的解决方案——混合策略路径规划器（HOPE），它将强化学习代理与Reeds-Shepp曲线相结合，实现了对不同场景的有效规划。本文提出了一种计算和实现行动屏蔽机制的方法，显著提高了强化学习训练的效率和效果。本文采用变压器作为网络结构，融合环境信息并生成计划路径。为了促进所提出的规划器的训练和评估，我们提出了一种基于空间和障碍物分布的停车场景难度级别分类标准。实验结果表明，我们的方法优于典型的基于规则的算法和传统的强化学习方法，在不同场景下展现了更高的规划成功率和泛化能力。本文提出的解决方案的代码将在论文被接受后在GitHub上公开。
图表
解决问题

论文旨在解决自动停车中路径规划的复杂性和多样性问题，提出了一种基于强化学习和Reeds-Shepp曲线的混合策略路径规划器（HOPE），并提出了一种行动掩码机制来提高强化学习训练的效率和效果。
关键思路

论文的关键思路是将强化学习与Reeds-Shepp曲线相结合，使用Transformer作为网络结构来融合环境信息并生成计划路径，同时提出了一种行动掩码机制来提高强化学习的训练效率和效果。
其它亮点

论文提出了一种基于强化学习和Reeds-Shepp曲线的混合策略路径规划器（HOPE），并提出了一种行动掩码机制来提高强化学习训练的效率和效果。论文还提出了一种基于空间和障碍物分布的停车场场景难度分类标准，并在多个数据集上进行了实验验证。论文的代码将在GitHub上开源。
相关研究

近年来，路径规划领域的研究涉及了很多方面，例如基于图的搜索、基于采样的方法、基于优化的方法等。相关论文包括：《A Review of Motion Planning Techniques》、《Sampling-Based Algorithms for Optimal Motion Planning》、《Optimization-Based Motion Planning: A Concise Overview》等。

HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios

评论