本文主要针对一种无监督(不依赖 reward)的强化学习预训练方法——无监督技巧发现(unsupservised skill discovery)的算法最优性质进行了讨论。作者证明了通过最大化互信息(mutual information)方式的 skill discovery 无法保证对任何下游奖励函数都是最优的。同时在,作者证明了在某种特定的下游任务 adaption 方式下(在后续的章节中详细讲解),通过预训练得到的 policy 能够最大化不同的 reward 下游任务中的最差情况(worst case)下的表现。
论文标题:
The Information Geometry of Unsupervised Reinforcement Learning
https://arxiv.org/pdf/2110.02719.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢