- 简介安全强化学习(RL)对于在实际应用中部署RL代理至关重要,因为它旨在在满足安全约束的同时最大化长期回报。然而,安全RL通常遭受样本效率低下的问题,需要与环境进行广泛的交互才能学习安全策略。我们提出了一种名为Efficient Safe Policy Optimization(ESPO)的新方法,通过样本操作增强安全RL的效率。ESPO采用一个优化框架,具有三种模式:最大化回报,最小化成本和平衡两者之间的权衡。通过根据观察到的回报和安全梯度之间的冲突动态调整采样过程,ESPO在理论上保证收敛,优化稳定性和改进样本复杂度界限。在Safety-MuJoCo和Omnisafe基准测试中的实验表明,ESPO在回报最大化和约束满足方面显著优于现有的基于原始和基于原始-对偶的基线。此外,ESPO实现了样本效率的大幅提升,比基线少需要25-29%的样本,并将训练时间缩短了21-38%。
-
- 图表
- 解决问题如何提高安全强化学习的样本效率?
- 关键思路通过样本调整来提高安全强化学习的效率,采用三种优化模式(最大化奖励、最小化成本、平衡奖励和成本之间的权衡)来动态调整采样过程,从而优化稳定性和样本复杂度。
- 其它亮点ESPO算法可以在满足安全约束的前提下最大化奖励,比现有的基于原始和基于原始-对偶的基线算法表现更好,需要的样本数量减少了25-29%,训练时间减少了21-38%。
- 相关研究包括: 1. Safe Policy Optimization with Baseline Bootstrapping 2. Safe Reinforcement Learning via Shielding 3. Safe Exploration for Optimization with Gaussian Processes
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流