- 简介本文提出了一种新颖的增强学习(RL)方法,用于垂直起降无人机(VTOL-UAV)的模拟到实际策略转移。所提出的方法是为海上对接站上的VTOL-UAV着陆而设计的。海上操作中的VTOL-UAV受到操作范围的限制,主要是由于电池容量所限。自主降落在充电平台上的概念为缓解这些限制提供了一个有趣的前景,因为它可以促进电池充电和数据传输。然而,当前的深度强化学习(DRL)方法存在一些缺点,包括长时间的训练和成功率不高。在本文中,我们通过将着陆过程分解为一系列更易管理但类似的任务,从而全面解决了这些问题,其中包括一个接近阶段和一个着陆阶段。所提出的架构利用了基于模型的控制方案,用于接近海上对接站的VTOL-UAV。在着陆阶段,DRL代理被离线训练,以学习在海上对接站上停靠的最优策略。联合北海波浪项目(JONSWAP)频谱模型已被用来为每个情节创建波浪模型,增强了模拟到实际转移的策略泛化。一组DRL算法已通过数值模拟进行了测试,包括基于价值的代理和基于策略的代理,例如深度Q网络(DQN)和近端策略优化(PPO)。数值实验表明,PPO代理可以学习复杂而高效的着陆策略,以在不确定的环境中着陆,从而增强了成功模拟到实际转移的可能性。
- 图表
- 解决问题本论文旨在提出一种新的强化学习方法,用于实现垂直起降无人机(VTOL-UAV)的模拟到实际策略转移,以实现在海上对接站点的自主着陆。当前深度强化学习方法存在训练时间长和成功率低等问题,因此需要一种更有效的方法来解决这些问题。
- 关键思路论文将着陆过程分解成接近阶段和着陆阶段两个任务,并分别采用基于模型的控制方案和离线训练的深度强化学习代理来解决这两个任务。同时,使用JONSWAP谱模型为每个episode创建波浪模型,提高了模拟到实际的策略泛化能力。
- 其它亮点论文测试了一系列DRL算法,包括基于价值的代理和基于策略的代理,如DQN和PPO。实验结果表明,PPO代理可以学习到在不确定环境中进行复杂而有效的着陆策略,从而提高了模拟到实际转移的成功率。
- 在这个领域中,最近进行了许多相关研究,例如“Deep Reinforcement Learning for Autonomous Landing of a UAV on a Moving Platform”,“Reinforcement Learning for UAV Attitude Control with Limited Communication Range”,“A Multi-Objective Reinforcement Learning Approach for UAV Control in Wind Fields”等。
沙发等你来抢
去评论
评论
沙发等你来抢