- 简介在安全强化学习领域中,平衡满足安全约束和优化奖励表现之间的关系是一个重大挑战。这项工作的一个关键难点是估算安全约束,由于约束信号的稀疏性,通常比估算奖励指标更加困难。为了解决这个问题,我们引入了一个名为“可行性一致安全强化学习(FCSRL)”的新框架。该框架将表示学习与面向可行性的目标相结合,以从原始状态中识别和提取与安全相关的信息,用于安全强化学习。利用自监督学习技术和更可学习的安全指标,我们的方法增强了策略学习和约束估算。在一系列基于向量状态和基于图像的任务中进行的实证评估表明,我们的方法能够学习更好的安全感知嵌入,并实现比先前的表示学习基线更优异的表现。
-
- 图表
- 解决问题本论文旨在解决安全强化学习中的安全约束和奖励性能之间的平衡问题,通过引入可行性一致的目标,结合表示学习来提高策略学习和约束估计。
- 关键思路该论文的关键思路是将表示学习和可行性导向的目标相结合,利用自监督学习技术和更可学习的安全度量,从原始状态中识别和提取与安全相关的信息,以实现更好的安全感知嵌入和优秀的性能表现。
- 其它亮点本论文提出的FCSRL框架可在向量状态和基于图像的任务中实现更好的安全感知嵌入和优秀的性能表现。实验结果显示,与之前的表示学习基线相比,该方法能够更好地学习安全感知嵌入。
- 与本论文相关的研究包括:1)基于模型的强化学习方法;2)基于限制的强化学习方法;3)用于安全强化学习的表示学习方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流