Contrastive Abstraction for Reinforcement Learning

2024年10月01日
  • 简介
    使用强化学习进行学习代理时,当处理包含大量状态的长轨迹时,很难进行学习。为了有效地解决这些学习问题,可以通过抽象表示将状态数量减少。原则上,深度强化学习可以找到抽象状态,但端到端学习是不稳定的。我们提出了对比抽象学习来找到抽象状态,其中我们假设轨迹中的连续状态属于同一抽象状态。这些抽象状态可以是基本位置、已实现的子目标、库存或健康状况。对比抽象学习首先通过对比学习构建状态表示的聚类,然后应用现代Hopfield网络来确定抽象状态。对比抽象学习的第一阶段是自监督学习,其中对比学习强制要求具有顺序接近的状态具有相似的表示。第二阶段使用现代Hopfield网络将相似的状态表示映射到相同的固定点,即抽象状态。可以通过确定现代Hopfield网络的固定点数量来调整抽象级别。此外,对比抽象学习不需要奖励,并促进了广泛的下游任务的有效强化学习。我们的实验证明了对比抽象学习在强化学习中的有效性。
  • 图表
  • 解决问题
    如何通过抽象表示来降低强化学习中长轨迹的状态数量?
  • 关键思路
    提出对比抽象学习的方法,通过对比学习和Hopfield网络来找到抽象状态,可以有效地降低状态数量,提高强化学习的效率。
  • 其它亮点
    论文提出的方法不需要奖励信号,可以用于各种下游任务的强化学习。实验结果表明,对比抽象学习方法可以有效地降低状态数量,提高强化学习的效率。
  • 相关研究
    最近的相关研究包括《Deep Reinforcement Learning with Double Q-learning》、《Playing Atari with Deep Reinforcement Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论