- 简介安全是将强化学习(RL)应用于实际问题的不可或缺的要求。尽管近年来提出了大量安全RL算法,但大多数现有工作通常1)依赖于接收数字安全反馈;2)不能保证在学习过程中的安全性;3)将问题限制在先验已知的确定性转移动态中;和/或4)假设存在任何状态的已知安全策略。针对上述问题,我们提出了一种名为长期二进制反馈安全RL (LoBiSaRL)的安全RL算法,用于具有二进制安全反馈和未知随机状态转移函数的约束马尔可夫决策过程(CMDPs)。LoBiSaRL优化策略以最大化奖励,同时保证代理在每个情节中仅以高概率执行安全的状态-动作对,从而保证长期安全性。具体而言,LoBiSaRL通过广义线性模型(GLM)对二进制安全函数进行建模,并在适当的假设下保守地采取每个时间步骤的安全行动,并推断其对未来安全性的影响。我们的理论结果表明,LoBiSaRL保证了长期安全约束,具有高概率性。最后,我们的实证结果证明,我们的算法比现有方法更安全,而在奖励方面不会显著损害性能。
- 图表
- 解决问题LoBiSaRL算法试图解决的问题是在强化学习中如何保证安全性,特别是针对具有约束的马尔可夫决策过程(CMDPs)和二元安全反馈的情况。
- 关键思路LoBiSaRL算法通过建立二元安全反馈的广义线性模型(GLM)来保证长期安全性,同时在合理的假设下推断每个行动对未来安全性的影响。
- 其它亮点该算法在理论上保证了长期安全性的约束,并在实验中展示了比现有方法更安全且不会显著损害奖励性能的结果。论文使用了开源的数据集,并提供了开源的代码。值得进一步研究的是如何将该算法应用于更复杂的环境中,以及如何处理其他类型的安全反馈。
- 最近的相关研究包括SafeRL、Constrained Policy Optimization、Constraint-Adaptive RL等。
沙发等你来抢
去评论
评论
沙发等你来抢