Boosting Robustness in Preference-Based Reinforcement Learning with Dynamic Sparsity

简介

为了使自主代理成功地融入以人为中心的环境中，代理应该能够从人类的本地环境中学习和适应。基于偏好的强化学习(PbRL)是一种有前途的方法，它从人类的偏好中学习奖励函数。这使得强化学习代理能够根据人类的愿望调整其行为。然而，人类生活在一个充满多样信息的世界中，其中大部分信息与完成特定任务无关。因此，代理学习集中于任务相关的环境特征变得至关重要。不幸的是，以前的工作主要集中在改进PbRL算法在仅包含任务相关特征的标准RL环境中的表现，而忽略了这一方面。这可能导致算法不能有效地转移到更嘈杂的真实世界环境中。为此，本文提出了R2N(鲁棒性-噪声)，这是第一个利用动态稀疏训练原则来学习能够集中于任务相关特征的鲁棒奖励模型的PbRL算法。我们研究了R2N在极其嘈杂的环境设置中的有效性，这是一个RL问题设置，其中高达95％的状态特征是无关的干扰。在与模拟教师的实验中，我们证明了R2N能够调整其神经网络的稀疏连接以集中于任务相关特征，使得R2N能够在多个运动和控制环境中显著优于几种最先进的PbRL算法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决PbRL算法在真实世界的嘈杂环境下的应用问题，即如何让智能体学会关注任务相关的环境特征。
关键思路

本文提出了一种新的PbRL算法R2N，利用动态稀疏训练原理学习稳健的奖励模型，使其能够关注任务相关的环境特征。
其它亮点

本文的实验结果表明，R2N算法在嘈杂环境下能够显著优于多个最先进的PbRL算法，具有较强的鲁棒性。作者还提供了多个数据集和开源代码，方便其他研究者进行进一步研究。
相关研究

与本文相关的研究包括：Preference-based Reinforcement Learning with High-Dimensional, Continuous States (ICML 2010)、Deep Reinforcement Learning with Preference-based Elicitation of Priorities (ICML 2017)等。

Boosting Robustness in Preference-Based Reinforcement Learning with Dynamic Sparsity

提问交流

提问交流