如何解决稀疏奖励下的强化学习？

强化学习（Reinforcement Learning，RL）是实现强人工智能的方法之一，在智能体（Agent）与环境的交互过程中，通过学习策略（Policy）以最大化回报或实现特定的目标。在实际应用场景中，RL 面临一个重要的问题：agent 无法得到足够多的、有效的奖励（Reward），或者说 agent 得到的是稀疏奖励（Sparse Reward），进而导致 agent 学习缓慢甚至无法进行有效学习。

人类在日常生活中其实每天能够收获的奖励很少，但是也在持续的学习，改进自己的知识和能力，我们当然希望 agent 也能如此，也能够在得到稀疏奖励的情况下持续的进行有益的学习。本文重点探讨的就是在存在稀疏奖励的情况下引导 agent 继续学习或探索的强化学习问题。

目前解决稀疏奖励下的强化学习主要有两类方法：一是，利用数据改进 agent 的学习，包括已有数据、外部数据等；二是，改进模型，提升模型在大状态、大动作空间下处理复杂问题的能力。具体的，利用数据改进 agent 学习的方法包括好奇心驱动（Curiosity Driven）、奖励重塑（Reward Shaping）、模仿学习（Imitation Learning）、课程学习（Curriculum Learning）等等。改进模型的方法主要是执行分层强化学习（Hierarchical Reinforcement Learning），使用多层次的结构分别学习不同层次的策略来提高模型解决复杂问题的能力，以及元学习（Meta-Learning）的方法。

本文针对每一类方法选择了一篇近两年的文章进行示例性介绍，以了解稀疏奖励下的强化学习的最新研究进展。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

如何解决稀疏奖励下的强化学习？

评论列表

评论