- 简介本文介绍了一种名为动态模型预测屏蔽(DMPS)的方法,它在保证安全的同时优化强化学习目标。DMPS采用本地规划器来动态选择安全的恢复动作,以最大化短期进展和长期回报。规划器和神经策略在DMPS中起到协同作用。当规划安全的恢复动作时,规划器利用神经策略估计长期回报,使其能够观察到超出其短期规划视野的内容。相反,训练中的神经策略从规划器提出的恢复计划中学习,收敛到在实践中既高效又安全的策略。这种方法保证了在训练期间和训练后的安全性,并且恢复后悔有界,随着规划视野的深度呈指数级下降。实验结果表明,与几种最先进的基线相比,DMPS收敛到的策略在训练后很少需要屏蔽干预,并实现了更高的回报。
-
- 图表
- 解决问题本文旨在解决强化学习中的安全性问题,提出了一种动态模型预测防护(DMPS)方法,旨在在保证安全的同时最大化任务进展和长期回报。
- 关键思路DMPS采用本地规划器来动态选择安全恢复动作,以同时最大化短期进展和长期回报,规划器和神经策略在DMPS中发挥协同作用,保证了训练期间和训练后的安全性。
- 其它亮点DMPS方法能够保证训练期间和训练后的安全性,并具有指数级别的恢复后悔率下降速度,实验结果表明,DMPS方法收敛到的策略在训练后很少需要防护干预,并且与几种最先进的基线相比,DMPS方法获得了更高的回报。
- 最近的相关研究包括使用备用策略的模型预测防护(MPS),以及其他一些强化学习的安全性方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流