【标题】SEM: Safe exploration mask for q-learning

【作者团队】Chengbin Xuan, Feng Zhang, Hak-Keung Lam

【发表日期】2022.2.24

【论文链接】https://www.sciencedirect.com/science/article/pii/S0952197622000574/pdfft?md5=cd9786ae45cd174bfe2126fc17933135&pid=1-s2.0-S0952197622000574-main.pdf

【推荐理由】大多数强化学习算法专注于发现最优策略以最大化奖励,而忽略了探索阶段的安全问题,这在工业应用中是不可接受的。本文关注在没有任何先验知识的情况下,在 q-learning 的探索阶段提高智能体安全性的有效方法。本文提出了一种名为安全探索掩码的新方法,通过修改环境的转换可能性来减少 q-learning 中安全违规的数量。为此,设计了一个由距离度量和可控性度量组成的安全指示函数。智能体可以通过自举学习安全指标函数,而无需额外的优化求解器。基于安全指示函数,生成安全探索掩码,通过减少不安全动作的转移可能性来修改原始探索策略。最后,离散和连续环境中的模拟证明了本文的方法在离散和连续 q 学习算法中的优势、可行性和安全性。

内容中包含的图片若涉及版权问题,请及时与我们联系删除