【标题】Discovering diverse solutions in deep reinforcement learning by maximizing state-action-based mutual information

【作者团队】Takayuki Osa, Voot Tangkaratt, Masashi Sugiyama

【发表日期】2022.4.16

【论文链接】https://www.sciencedirect.com/science/article/pii/S0893608022001393?via%3Dihub

【推荐理由】强化学习算法通常仅限于学习特定任务的单一解决方案,即使经常存在不同的解决方案。最近的研究表明,学习一组不同的解决方案是有益的,因为多样性可以实现稳健的小样本适应。尽管现有方法通过使用互信息作为无监督奖励来学习不同的解决方案,但这种方法通常会受到由值函数逼近引起的梯度估计的偏差。本文提出了一种新方法,可以学习不同的解决方案而不会遇到偏差问题。在本文的方法中,通过直接最大化互信息的变分下限来训练以连续或离散潜在变量为条件的策略,而不像以前研究使用互信息作为无监督的奖励。机器人运动任务的广泛实验证明了所提出的方法成功地学实现了一个通过学习连续的潜在变量来获得无限的不同解决方案。并且与现有方法相比,本文的方法能够实现更有效的小样本适应。

内容中包含的图片若涉及版权问题,请及时与我们联系删除