Dynamic Model Predictive Shielding for Provably Safe Reinforcement Learning

简介

本文介绍了一种名为动态模型预测屏蔽（DMPS）的方法，它在保证安全的同时优化强化学习目标。DMPS采用本地规划器来动态选择安全的恢复动作，以最大化短期进展和长期回报。规划器和神经策略在DMPS中起到协同作用。当规划安全的恢复动作时，规划器利用神经策略估计长期回报，使其能够观察到超出其短期规划视野的内容。相反，训练中的神经策略从规划器提出的恢复计划中学习，收敛到在实践中既高效又安全的策略。这种方法保证了在训练期间和训练后的安全性，并且恢复后悔有界，随着规划视野的深度呈指数级下降。实验结果表明，与几种最先进的基线相比，DMPS收敛到的策略在训练后很少需要屏蔽干预，并实现了更高的回报。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决强化学习中的安全性问题，提出了一种动态模型预测防护（DMPS）方法，旨在在保证安全的同时最大化任务进展和长期回报。
关键思路

DMPS采用本地规划器来动态选择安全恢复动作，以同时最大化短期进展和长期回报，规划器和神经策略在DMPS中发挥协同作用，保证了训练期间和训练后的安全性。
其它亮点

DMPS方法能够保证训练期间和训练后的安全性，并具有指数级别的恢复后悔率下降速度，实验结果表明，DMPS方法收敛到的策略在训练后很少需要防护干预，并且与几种最先进的基线相比，DMPS方法获得了更高的回报。
相关研究

最近的相关研究包括使用备用策略的模型预测防护（MPS），以及其他一些强化学习的安全性方法。

Dynamic Model Predictive Shielding for Provably Safe Reinforcement Learning

提问交流

提问交流