- 简介设计强化学习(RL)解决方案以解决现实生活中的问题仍然是一个重大挑战。一个主要的关注点是安全。 "Shielding" 是一种流行的技术,通过将用户定义的安全规范转化为安全的代理行为来强制执行RL中的安全性。然而,这些方法要么遭受极端的学习延迟,要求在问题中设计模型和安全域需要大量的人力,要么需要预计算。在本文中,我们提出了一个新的基于许可的框架来处理安全性和屏蔽构建。许可最初是为了消除(非许可)不会导致最优解的行动,以提高RL训练效率而设计的。本文表明,安全性可以自然地纳入到这个框架中,即将许可扩展到包括安全性,从而我们可以实现安全和提高效率。使用三个标准RL应用程序的实验评估显示了该方法的有效性。
- 图表
- 解决问题如何在强化学习中实现安全性,避免出现潜在的危险行为?
- 关键思路提出了一种基于许可性的框架,将安全性与许可性相结合,实现同时提高效率与保证安全性的强化学习。
- 其它亮点通过实验验证了该方法的有效性,并与其他相关研究进行了比较。该论文开源了代码并使用了三个标准的强化学习应用程序进行了实验。
- 该领域的其他相关研究包括:《基于模型的强化学习中的安全性》、《使用约束优化实现强化学习中的安全性》等。
沙发等你来抢
去评论
评论
沙发等你来抢