Dynamic Model Predictive Shielding for Provably Safe Reinforcement Learning

2024年05月22日
  • 简介
    本文介绍了一种名为动态模型预测屏蔽(DMPS)的方法,它在保证安全的同时优化强化学习目标。DMPS采用本地规划器来动态选择安全的恢复动作,以最大化短期进展和长期回报。规划器和神经策略在DMPS中起到协同作用。当规划安全的恢复动作时,规划器利用神经策略估计长期回报,使其能够观察到超出其短期规划视野的内容。相反,训练中的神经策略从规划器提出的恢复计划中学习,收敛到在实践中既高效又安全的策略。这种方法保证了在训练期间和训练后的安全性,并且恢复后悔有界,随着规划视野的深度呈指数级下降。实验结果表明,与几种最先进的基线相比,DMPS收敛到的策略在训练后很少需要屏蔽干预,并实现了更高的回报。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决强化学习中的安全性问题,提出了一种动态模型预测防护(DMPS)方法,旨在在保证安全的同时最大化任务进展和长期回报。
  • 关键思路
    DMPS采用本地规划器来动态选择安全恢复动作,以同时最大化短期进展和长期回报,规划器和神经策略在DMPS中发挥协同作用,保证了训练期间和训练后的安全性。
  • 其它亮点
    DMPS方法能够保证训练期间和训练后的安全性,并具有指数级别的恢复后悔率下降速度,实验结果表明,DMPS方法收敛到的策略在训练后很少需要防护干预,并且与几种最先进的基线相比,DMPS方法获得了更高的回报。
  • 相关研究
    最近的相关研究包括使用备用策略的模型预测防护(MPS),以及其他一些强化学习的安全性方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问