一个可信的强化学习算法应该能够解决具有挑战性的现实世界问题,包括鲁棒地处理不确定性,满足安全约束以避免灾难性故障,以及在部署过程中泛化到未见过的场景。考虑到可信强化学习在鲁棒性、安全性和泛化性等方面的内在脆弱性,对可信强化学习的主要研究方向进行了综述。特别地,我们给出了严格的公式,分类了相应的方法,并讨论了每个视角的基准。此外,我们还提供了一个展望部分,通过对考虑到人类反馈的外部漏洞的简要讨论来促进有希望的未来方向。我们希望这项综述能将不同的研究线索整合到一个统一的框架中,促进强化学习的可信性。
论文链接:https://arxiv.org/abs/2209.08025
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢