- 简介在安全强化学习(RL)中,安全成本通常被定义为依赖于即时状态和行动的函数。在实践中,由于状态表示的不足,安全约束往往可能是非马尔可夫的,并且安全成本可能是未知的。因此,我们解决了一个一般的设置,其中安全标签(例如安全或不安全)与状态-动作轨迹相关联。我们的主要贡献是:首先,我们设计了一个安全模型,该模型专门执行信用分配,以评估部分状态-动作轨迹对安全的贡献。这个安全模型是使用标记的安全数据集进行训练的。其次,使用RL-as-inference策略,我们推导出了一种有效的算法,用于使用学习的安全模型优化安全策略。最后,我们设计了一种方法,动态调整奖励最大化和安全合规之间的权衡系数。我们将约束优化问题重写为其对偶问题,并推导出了一种基于梯度的方法,在训练过程中动态调整权衡系数。我们的实证结果表明,这种方法具有高度的可扩展性,并能够满足复杂的非马尔可夫安全约束。
- 图表
- 解决问题论文试图解决如何处理非Markovian安全约束的问题,即安全标签不仅仅依赖于当前状态和动作,而是依赖于整个状态-动作轨迹。同时,安全代价可能未知。
- 关键思路论文提出了一种安全模型,通过标记的安全数据集进行训练,实现对部分状态-动作轨迹对安全性的贡献进行评估。利用RL-as-inference策略,通过学习的安全模型实现优化安全策略的有效算法。最后,通过将约束优化问题转化为其对偶问题,并推导出动态调整回报最大化和安全合规之间权衡系数的梯度方法来动态适应权衡系数。
- 其它亮点论文的实验结果表明,该方法具有高度可扩展性,并能够满足复杂的非Markovian安全约束。论文提出的安全模型和RL-as-inference策略可以应用于其他领域。论文使用了多个数据集进行实验,并开源了代码。
- 最近的相关研究包括:1)利用深度学习来学习安全性约束;2)使用模型预测控制来处理非Markovian约束;3)使用逆强化学习来处理安全约束。相关论文包括:1)Deep Reinforcement Learning with Safety Constraints;2)Model Predictive Control with Probabilistic Safety Guarantee;3)Inverse Reinforcement Learning with Locally Consistent Reward Functions。
沙发等你来抢
去评论
评论
沙发等你来抢