【标题】Using chains of bottleneck transitions to decompose and solve Reinforcement Learning tasks with hidden states

【作者团队】Hüseyin Aydına, Erkin Çildenb, Faruk Polata

【发表日期】2022.3.15

【论文链接】https://www.sciencedirect.com/science/article/pii/S0167739X22000917

【推荐理由】在部分可观察性的情况下,强化学习在大型和模棱两可的问题领域中表现不佳。在这种情况下,任务的适当分解可以改善和加速学习过程。 与大多数现实生活中的问题一样,任务的分解通常源于为了完成主要任务而必须完成的子任务序列。在本文研究中,假设预先提供了明确的状态,智能体基于一组瓶颈转换链构建问题的分解,这些瓶颈转换是通向目标状态的明确和关键转换的序列。在更高的层次上,智能体训练其子智能体以提取与子任务对应的子策略,即任何链中的两个连续转换,并在抽象级别学习每个子策略的值。实验研究表明,基于有用的瓶颈转换的早期分解消除了过多记忆的必要性并提高了智能体的学习性能。它还表明,了解分解中瓶颈转换的正确顺序会导致更快地构建解决方案。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除