【标题】Dynamic Shielding for Reinforcement Learning in Black-Box Environments

【作者团队】Masaki Waga, Ezequiel Castellano, Sasinee Pruekprasert, Stefan Klikovits, Toru Takisaka, Ichiro Hasuo

【发表日期】2022.7.27

【论文链接】https://arxiv.org/pdf/2207.13446.pdf

【推荐理由】由于学习过程中缺乏安全保障,在网络物理系统中使用强化学习(RL)具有挑战性。虽然有各种各样的建议来减少学习过程中的不良行为,但大多数这些技术都需要先验的系统知识,其适用性有限。本文旨在减少学习过程中的不良行为,而不需要任何先验系统知识。其提出了动态屏蔽:一种基于模型的安全RL技术的扩展,称为使用自动机学习的屏蔽。动态屏蔽技术使用RPNI算法的变体与RL并行构建近似系统模型,并抑制由于从学习模型构建屏蔽而产生的不希望的探索。通过这种组合,在智能体感应到潜在的不安全行为之前,可以预见到这些行为。实验表明,所提出的动态屏蔽显著减少了训练期间意外事件的数量。