- 简介学习为基础的方法,特别是强化学习(RL),在自主多旋翼飞行器的控制方面具有很大的潜力,可以简化部署、提高性能和实现泛化。深度RL已经能够在模拟中以令人印象深刻的忠实度和敏捷性控制复杂系统,但是从模拟到现实的转移经常存在难以弥合的现实差距。此外,RL通常受到训练时间过长的困扰。在这项工作中,我们提出了一种新颖的基于非对称演员-评论家的架构,结合高度可靠的基于RL的训练范式,用于端到端的四轴飞行器控制。我们展示了课程学习和高度优化的模拟器如何增强样本复杂度并导致快速的训练时间。为了精确讨论与低层/端到端多旋翼控制相关的挑战,我们还介绍了一种分类现有控制抽象级别以及非线性和域参数的分类法。我们的框架使得模拟到现实(Sim2Real)转移直接RPM控制只需要在消费级笔记本电脑上进行18秒的训练,同时还可以部署在微控制器上以在实时保证下控制多旋翼。最后,我们的解决方案在轨迹跟踪方面表现出竞争性能,通过与现有最先进的控制解决方案在真实的Crazyflie纳米四轴飞行器上进行各种实验比较来证明。我们开源了代码,包括一个非常快速的多旋翼动力学模拟器,可以在笔记本电脑GPU上每秒模拟约5个月的飞行。快速的训练时间和部署到廉价的现成四轴飞行器降低了进入门槛,有助于民主化这些系统的研究和开发。
- 图表
- 解决问题论文旨在解决控制自主多旋翼飞行器的问题,尤其是在实现模拟到真实场景的转移和缩短训练时间方面的挑战。此外,论文还试图分类控制抽象级别和非线性以及领域参数。
- 关键思路论文提出了一种新的基于非对称演员-评论家的架构,结合高度可靠的强化学习训练范式,实现端到端的四旋翼控制。采用课程学习和高度优化的模拟器增强样本复杂性,并实现快速训练时间。通过在消费级笔记本电脑上进行18秒的训练,实现了模拟到现实的转移,控制直接转速。同时,该方案在实时保证下部署在微控制器上,用于控制多旋翼。最后,该解决方案在轨迹跟踪方面表现出竞争性能。
- 其它亮点论文开源了代码,包括一个非常快速的多旋翼动力学模拟器,可以在笔记本电脑GPU上每秒模拟约5个月的飞行。实验使用真实的Crazyflie纳米四旋翼进行比较,展示了轨迹跟踪方面的竞争性能。论文的方法可以降低进入门槛,帮助民主化这些系统的研究和开发。
- 近期的相关研究包括:1. 'Deep Drone Racing: Learning Agile Flight in Dynamic Environments';2. 'A Survey of Deep Learning for Autonomous Drone Flights';3. 'Learning to Fly by Crashing'。
沙发等你来抢
去评论
评论
沙发等你来抢