- 简介强化学习在顺序决策问题上取得了巨大成功,但往往需要大量的代理-环境交互。为了提高样本效率,像从专家演示中进行强化学习(RLED)的方法引入了外部专家演示,以在学习过程中促进代理的探索。在实践中,这些演示通常是从人类用户那里收集的,因此成本很高,往往受到限制。因此如何选择最有利于学习的最佳人类演示集成为主要关注点。本文提出了EARLY(基于剧集的演示查询的剧集主动学习),这是一种算法,使学习代理能够在基于轨迹的特征空间中生成优化的专家演示查询。基于代理当前策略的轨迹级别不确定性估计,EARLY确定了基于特征的查询的最佳时机和内容。通过查询剧集演示而不是孤立的状态-行动对,EARLY提高了人类教学体验并实现了更好的学习性能。我们在三个越来越困难的模拟导航任务中验证了我们方法的有效性。结果表明,当演示由模拟的oracle策略生成时,我们的方法能够在所有三个任务中实现专家级别的性能,并且收敛速度比其他基线方法快30%以上。后续的用户试验结果(N = 18)进一步验证了我们的方法在人类专家演示者的情况下仍能保持显着更好的收敛性,同时在感知任务负荷和消耗更少的人力时间方面实现更好的用户体验。
- 图表
- 解决问题如何选择最优的人类示范以提高强化学习效率?
- 关键思路EARLY算法在基于轨迹的特征空间中生成优化的人类示范查询,以提高强化学习的效率和人类教学体验。
- 其它亮点EARLY算法通过查询轨迹示范而不是孤立的状态-动作对,提高了人类教学体验和学习性能。实验结果表明,在模拟的导航任务中,当示范由模拟的Oracle策略生成时,EARLY算法比其他基线方法快30%以上地收敛到专家级性能。在18名用户的用户研究中,EARLY算法在人类专家示范的情况下仍然能够保持显着更好的收敛性能,同时在任务负荷感知和消耗更少的人类时间方面实现更好的用户体验。
- 近期的相关研究包括基于演示的强化学习和主动学习方法。
沙发等你来抢
去评论
评论
沙发等你来抢