- 简介在目标条件强化学习(GCRL)任务中,特别是那些具有长时间跨度和稀疏奖励的任务中,探索效率是一个重大挑战。探索效率的主要限制是智能体无法利用环境结构模式。在本研究中,我们引入了一个新的框架GEASD,旨在通过学习过程中的自适应技能分布来捕捉这些模式。该分布通过优化上下文范围内实现目标的局部熵,增强目标扩散行为,并促进包含熟悉结构模式的状态的深度探索。我们的实验表明,与均匀技能分布相比,使用自适应技能分布可以显着提高探索效率。此外,学习到的技能分布表现出强大的泛化能力,在包含类似局部结构的未见任务中实现了实质性的探索进展。
-
- 图表
- 解决问题论文旨在解决GCRL任务中探索效率低下的问题,特别是在具有长时间跨度和稀疏奖励的任务中。
- 关键思路论文提出了一种新的框架GEASD,通过自适应技能分布来捕捉环境结构模式,优化实现目标的本地熵,增强目标扩散行为,促进包含熟悉结构模式的状态的深度探索。
- 其它亮点实验表明,相比于均匀技能分布,使用自适应技能分布可以显著提高探索效率。此外,学习到的技能分布具有强大的泛化能力,在包含类似局部结构的未见任务中实现了大量探索进展。
- 与此论文相关的研究包括:《Curiosity-driven Exploration by Self-supervised Prediction》、《Large-Scale Study of Curiosity-Driven Learning》、《Count-Based Exploration with Neural Density Models》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流