Safe Deep Model-Based Reinforcement Learning with Lyapunov Functions

简介

模型驱动的强化学习（MBRL）已经展示了许多用于智能控制任务的优良特性，但是在训练和实际应用中满足安全和稳定性约束仍然是一个开放性问题。本文提出了一种新的基于学习模型预测控制（LMPC）框架的模型驱动强化学习框架，可以在未知动态下实现高效的策略学习，并具有数学上可证明的稳定性保障。我们引入并探索了一种新颖的方法，用于在模型驱动的强化学习中添加安全约束。新的稳定性增强框架由基于神经网络的学习器和模型驱动的强化学习代理组成，学习器学习构建Lyapunov函数，代理可以在只有次优演示和稀疏成本反馈的情况下，始终完成任务并满足用户指定的约束条件。我们通过模拟实验展示了所提出框架的能力。
图表
解决问题

如何在模型未知的情况下，实现具有稳定性和安全性约束的强化学习？
关键思路

提出了一种基于学习模型预测控制（LMPC）框架的模型强化学习框架，通过学习构建李雅普诺夫函数来增强稳定性，并引入一种新的方法来添加安全性约束。
其它亮点

该论文的亮点包括：使用LMPC框架提出了一种新的模型强化学习框架，该框架具有稳定性和安全性约束；提出了一种新的方法来添加安全性约束，使用稀疏成本反馈和次优演示来训练模型；通过模拟实验验证了该框架的有效性。
相关研究

最近的相关研究包括：基于模型的强化学习（MBRL）的研究，以及使用LMPC框架的强化学习研究。

Safe Deep Model-Based Reinforcement Learning with Lyapunov Functions

评论