Enhancing Efficiency of Safe Reinforcement Learning via Sample Manipulation

简介

安全强化学习（RL）对于在实际应用中部署RL代理至关重要，因为它旨在在满足安全约束的同时最大化长期回报。然而，安全RL通常遭受样本效率低下的问题，需要与环境进行广泛的交互才能学习安全策略。我们提出了一种名为Efficient Safe Policy Optimization（ESPO）的新方法，通过样本操作增强安全RL的效率。ESPO采用一个优化框架，具有三种模式：最大化回报，最小化成本和平衡两者之间的权衡。通过根据观察到的回报和安全梯度之间的冲突动态调整采样过程，ESPO在理论上保证收敛，优化稳定性和改进样本复杂度界限。在Safety-MuJoCo和Omnisafe基准测试中的实验表明，ESPO在回报最大化和约束满足方面显著优于现有的基于原始和基于原始-对偶的基线。此外，ESPO实现了样本效率的大幅提升，比基线少需要25-29％的样本，并将训练时间缩短了21-38％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何提高安全强化学习的样本效率？
关键思路

通过样本调整来提高安全强化学习的效率，采用三种优化模式（最大化奖励、最小化成本、平衡奖励和成本之间的权衡）来动态调整采样过程，从而优化稳定性和样本复杂度。
其它亮点

ESPO算法可以在满足安全约束的前提下最大化奖励，比现有的基于原始和基于原始-对偶的基线算法表现更好，需要的样本数量减少了25-29%，训练时间减少了21-38%。
相关研究

相关研究包括： 1. Safe Policy Optimization with Baseline Bootstrapping 2. Safe Reinforcement Learning via Shielding 3. Safe Exploration for Optimization with Gaussian Processes

Enhancing Efficiency of Safe Reinforcement Learning via Sample Manipulation

提问交流

提问交流