- 简介使用强化学习进行学习代理时,当处理包含大量状态的长轨迹时,很难进行学习。为了有效地解决这些学习问题,可以通过抽象表示将状态数量减少。原则上,深度强化学习可以找到抽象状态,但端到端学习是不稳定的。我们提出了对比抽象学习来找到抽象状态,其中我们假设轨迹中的连续状态属于同一抽象状态。这些抽象状态可以是基本位置、已实现的子目标、库存或健康状况。对比抽象学习首先通过对比学习构建状态表示的聚类,然后应用现代Hopfield网络来确定抽象状态。对比抽象学习的第一阶段是自监督学习,其中对比学习强制要求具有顺序接近的状态具有相似的表示。第二阶段使用现代Hopfield网络将相似的状态表示映射到相同的固定点,即抽象状态。可以通过确定现代Hopfield网络的固定点数量来调整抽象级别。此外,对比抽象学习不需要奖励,并促进了广泛的下游任务的有效强化学习。我们的实验证明了对比抽象学习在强化学习中的有效性。
- 图表
- 解决问题如何通过抽象表示来降低强化学习中长轨迹的状态数量?
- 关键思路提出对比抽象学习的方法,通过对比学习和Hopfield网络来找到抽象状态,可以有效地降低状态数量,提高强化学习的效率。
- 其它亮点论文提出的方法不需要奖励信号,可以用于各种下游任务的强化学习。实验结果表明,对比抽象学习方法可以有效地降低状态数量,提高强化学习的效率。
- 最近的相关研究包括《Deep Reinforcement Learning with Double Q-learning》、《Playing Atari with Deep Reinforcement Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢