- 简介通过数值方法解决Hamilton-Jacobi-Isaacs(HJI)偏微分方程可以实现两个玩家微分博弈的均衡反馈控制,但面临维度灾难的问题。虽然物理信息神经网络(PINN)在缓解解决PDE中的维度灾难方面表现出了希望,但由于其采样性质,普通的PINN在学习不连续解方面存在不足,导致由于状态或时间逻辑约束而导致值不连续时,生成的策略的安全性能较差。在本研究中,我们探索了三种可能的解决方案:(1)一种混合学习方法,该方法由监督均衡和HJI PDE引导;(2)一种价值硬化方法,其中使用逐渐增加的Lipschitz常数求解一系列HJI,以惩罚约束违规;(3)提高值到更高维状态空间的上凸技术,使其变得连续。通过5D和9D车辆以及13D无人机模拟的评估表明,混合方法在泛化和安全性能方面优于其他方法,利用监督均衡值和共轭变量以及PINN损失梯度的低成本。
- 解决问题解决问题的是如何在两个玩家的微分博弈中实现均衡反馈控制,同时避免维度灾难问题(Curse of Dimensionality)和无法学习不连续解的问题。
- 关键思路论文提出了三种解决方案:混合学习方法、价值硬化方法和上函技术,其中混合学习方法表现最好,能够利用监督均衡值和损失梯度的低成本,实现更好的泛化性能和安全性能。
- 其它亮点论文通过5D和9D车辆以及13D无人机模拟进行了实验,证明了混合学习方法的有效性。此外,论文提供了开源代码。
- 与该领域的相关研究包括:使用PINNs解决微分方程的研究、使用深度学习实现均衡反馈控制的研究等。
沙发等你来抢
去评论
评论
沙发等你来抢