Kyoto University:Masaki Waga | 黑箱环境中强化学习的动态屏蔽

【标题】Dynamic Shielding for Reinforcement Learning in Black-Box Environments

【作者团队】Masaki Waga, Ezequiel Castellano, Sasinee Pruekprasert, Stefan Klikovits, Toru Takisaka, Ichiro Hasuo

【发表日期】2022.7.27

【论文链接】https://arxiv.org/pdf/2207.13446.pdf

【推荐理由】由于学习过程中缺乏安全保障，在网络物理系统中使用强化学习（RL）具有挑战性。虽然有各种各样的建议来减少学习过程中的不良行为，但大多数这些技术都需要先验的系统知识，其适用性有限。本文旨在减少学习过程中的不良行为，而不需要任何先验系统知识。其提出了动态屏蔽：一种基于模型的安全RL技术的扩展，称为使用自动机学习的屏蔽。动态屏蔽技术使用RPNI算法的变体与RL并行构建近似系统模型，并抑制由于从学习模型构建屏蔽而产生的不希望的探索。通过这种组合，在智能体感应到潜在的不安全行为之前，可以预见到这些行为。实验表明，所提出的动态屏蔽显著减少了训练期间意外事件的数量。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Kyoto University:Masaki Waga | 黑箱环境中强化学习的动态屏蔽

评论