港科大:Rui Yang | RORL：通过保守平滑实现鲁棒离线强化学习

【标题】RORL: Robust Offline Reinforcement Learning via Conservative Smoothing

【作者团队】Rui Yang, Chenjia Bai, Xiaoteng Ma, Zhaoran Wang, Chongjie Zhang, Lei Han

【发表日期】2022.9.26

【论文链接】https://arxiv.org/pdf/2206.02829v2.pdf

【推荐理由】离线强化学习（RL）为利用大量离线数据进行复杂决策任务提供了一个很有前景的方向。由于分布移位问题，当前的离线RL算法在值估计和动作选择方面通常被设计为保守的。然而，在现实条件下，如传感器错误和对抗性攻击，当遇到观测偏差时，这种保守主义会削弱所学策略的鲁棒性。为了权衡稳健性和保守性，本文提出了鲁棒离线强化学习（RORL）和新的保守性平滑技术。在RORL中，引入了对数据集附近状态的策略和值函数的正则化，以及对这些OOD状态的额外保守值估计。理论上，研究表明RORL比线性MDP中最近的理论结果具有更紧的次优界。并证明RORL可以在一般离线RL基准上实现最先进的性能，并且对对抗性观测扰动具有相当大的鲁棒性。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

港科大:Rui Yang | RORL：通过保守平滑实现鲁棒离线强化学习

评论