- 简介许多现实世界中的机器人学习问题,例如拾取和放置或到达目的地,可以看作是尽快达到目标状态的问题。这些问题,当被制定为情节强化学习任务时,可以很容易地被指定为与我们的目标相一致的任务:每个时间步的-1奖励,当到达目标状态时终止,称为最小时间任务。尽管这种制定方法很简单,但由于其被认为很难且缺乏信息性,因此经常被忽视,而选择密集奖励。我们的研究对比了这两种奖励范式,揭示了最小时间任务规范不仅有助于学习高质量的策略,而且可以在自身的性能指标上超过基于密集奖励的策略。关键是,我们还确定了初始策略的目标命中率是这种稀疏反馈设置中学习成功的一个强有力的早期指标。最后,我们使用四个不同的真实机器人平台,展示了可以使用恒定的负奖励从头开始学习基于像素的策略,学习时间为两到三个小时。
- 图表
- 解决问题探讨稀疏奖励在机器学习中的应用,比较稀疏奖励和密集奖励的效果
- 关键思路通过将机器学习问题转化为最短时间任务,使用负奖励作为稀疏奖励,可以更好地学习到高质量的策略,并且在性能指标上超过使用密集奖励的策略。同时,通过初始策略的目标达成率可以预测学习的成功率
- 其它亮点论文使用四个真实机器人平台进行实验,证明了使用负奖励可以在两到三个小时内从头开始学习像素级策略。实验结果表明,稀疏奖励可以比密集奖励更好地学习到高质量的策略,同时初始策略的目标达成率可以预测学习的成功率。
- 相关研究包括:1. 'Sparse Reward Exploration with Active Information Gathering';2. 'Sparse and Dense Data with CNNs: Depth Completion and Semantic Segmentation';3. 'Deep Reinforcement Learning with Sparse Rewards'。
沙发等你来抢
去评论
评论
沙发等你来抢