作者:Hao Liu, Pieter Abbeel

简介: 作者为强化学习引入了一个新的无监督预训练目标。在无监督的无奖励预训练阶段,代理最大化策略诱导的任务和状态之间的互信息。作者的主要贡献是这个难以处理的数量的新下限。作者表明,通过重新解释和组合变分后继特征~\citep{Hansen2020Fast} 与非参数熵最大化~\citep{liu2021behavior},可以有效地优化难以处理的互信息。提出的方法主动预训练with Successor Feature (APS) 通过非参数熵最大化探索环境,并且可以有效地利用探索的数据通过变分后继特征来学习行为。APS 解决了现有基于互信息最大化和基于熵最大化的无监督 RL 的局限性,并结合了两者的优点。在 Atari 100k 数据效率基准上进行评估时,作者的方法显着优于先前将无监督预训练与特定任务微调相结合的方法。

下载地址:https://arxiv.org/pdf/2108.13956

HUB地址:https://hub.baai.ac.cn/view/9640

内容中包含的图片若涉及版权问题,请及时与我们联系删除