- 简介城市空中移动(UAM)的出现为城市交通领域带来了转型性的变革。然而,其广泛采用和经济可行性在一定程度上取决于能否在UAM网络中对飞机机队进行最佳调度,而这种调度面临着空域拥堵、不断变化的天气条件和不同需求所带来的不确定性。本文提出了机队调度问题的综合优化公式,同时还确定了需要替代解决方案的需求,因为直接解决所得到的整数非线性规划问题对于日常机队调度来说计算上是禁止的。先前的研究表明,使用(图)强化学习(RL)方法来训练机队调度的实时可执行策略模型是有效的。然而,这样的策略模型在分布不均衡的情况下或边缘情况下往往会变得脆弱。此外,随着问题复杂度(例如,约束数量)的增加,训练性能也会下降。为了解决这些问题,本文提出了一种模仿学习方法,其中基于RL的策略利用通过使用遗传算法解决精确优化而产生的专家演示。策略模型包括基于图神经网络(GNN)的编码器,用于嵌入vertiports和飞机空间的变压器网络,用于编码需求、乘客费用和运输成本配置文件的多头注意力(MHA)解码器。通过生成对抗模仿学习(GAIL)算法使用专家演示。在涉及8个vertiports和40架飞机的UAM模拟环境中,以每日利润为奖励,新的模仿方法在平均性能方面表现更好,并在看不见的最坏情况下取得了显著的改善,相比于纯RL结果。
- 图表
- 解决问题本文旨在解决城市空中移动(UAM)中的机队调度问题,以实现UAM网络中飞机在垂直起降机场之间的最佳调度,以适应空域拥挤、天气变化和需求变化等不确定性因素。
- 关键思路本文提出了一种基于图神经网络(GNN)和生成对抗性模仿学习(GAIL)算法的模型,将强化学习(RL)策略与专家演示相结合,以提高机队调度的性能和鲁棒性。
- 其它亮点本文的模型表现出更好的性能和鲁棒性,特别是在未见过的最坏情况下。实验采用了UAM仿真环境,包括8个垂直起降机场和40架飞机。
- 近期的相关研究包括“Optimization-based Multi-agent Reinforcement Learning for Urban Air Mobility”和“Decentralized Multi-Agent Reinforcement Learning for Dynamic Fleet Management in Urban Air Mobility”。
沙发等你来抢
去评论
评论
沙发等你来抢