Goal Exploration via Adaptive Skill Distribution for Goal-Conditioned Reinforcement Learning

简介

在目标条件强化学习（GCRL）任务中，特别是那些具有长时间跨度和稀疏奖励的任务中，探索效率是一个重大挑战。探索效率的主要限制是智能体无法利用环境结构模式。在本研究中，我们引入了一个新的框架GEASD，旨在通过学习过程中的自适应技能分布来捕捉这些模式。该分布通过优化上下文范围内实现目标的局部熵，增强目标扩散行为，并促进包含熟悉结构模式的状态的深度探索。我们的实验表明，与均匀技能分布相比，使用自适应技能分布可以显着提高探索效率。此外，学习到的技能分布表现出强大的泛化能力，在包含类似局部结构的未见任务中实现了实质性的探索进展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决GCRL任务中探索效率低下的问题，特别是在具有长时间跨度和稀疏奖励的任务中。
关键思路

论文提出了一种新的框架GEASD，通过自适应技能分布来捕捉环境结构模式，优化实现目标的本地熵，增强目标扩散行为，促进包含熟悉结构模式的状态的深度探索。
其它亮点

实验表明，相比于均匀技能分布，使用自适应技能分布可以显著提高探索效率。此外，学习到的技能分布具有强大的泛化能力，在包含类似局部结构的未见任务中实现了大量探索进展。
相关研究

与此论文相关的研究包括：《Curiosity-driven Exploration by Self-supervised Prediction》、《Large-Scale Study of Curiosity-Driven Learning》、《Count-Based Exploration with Neural Density Models》等。

Goal Exploration via Adaptive Skill Distribution for Goal-Conditioned Reinforcement Learning

提问交流

提问交流