在具有相同任务目标的不同环境中提升泛化性对于视觉强化算法在实际场景中的成功应用至关重要。然而,来自高维观测的视觉干扰(这在现实场景中很常见)可能会不利于强化学习算法中学习到的表征,并降低其泛化性能。为了解决这个问题,我们提出了一种新方法,即特征奖励序列预测(Characteristic Reward Sequence Prediction, CRESP),通过学习奖励序列分布(Reward Sequence Distributions, RSDs)来提取与任务相关的信息。这是因为在强化学习问题中,奖励信号与任务相关并且与视觉干扰无关。具体而言,为了有效地利用RSDs捕获任务相关信息,CRESP引入了一个辅助任务——预测RSDs的特征函数——来学习任务相关表征。实验表明,CRESP显著提高了强化学习算法在没见过的环境中的泛化性能,其在一些具有不同视觉干扰的DeepMind Control任务上的表现优于现有最好模型。
该工作标题为「Learning Task-relevant Representations for Generalization via Characteristic Functions of Reward Sequence Distributions」,由王杰教授指导MIRA Lab的杨睿、耿子介、叶鸣轩等人完成,并已经被SIGKDD 2022接收。
论文链接:
https://arxiv.org/abs/2205.10218
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢