【标题】Hierarchical Programmatic Reinforcement Learning via Learning to Compose Programs

【作者团队】Guan-Ting Liu * 1 En-Pei Hu * 1 Pu-Jen Cheng 1 Hung-Yi Lee 1 Shao-Hua Sun 

【发表日期】30 January, 2023;

【论文链接】https://arxiv.org/pdf/2301.12950.pdf

【推荐理由】Trivedi等人提出了一种方法(LEAPS),该方法首先学习程序嵌入空间,以从预先生成的程序数据集中连续参数化不同的程序,旨在生成可由人解释并能更好地推广到新场景的强化学习(RL)策略,然后当给定任务时在学习程序嵌入空间中搜索任务解决程序。尽管取得了令人鼓舞的结果,但LEAPS能够产生的计划政策受到计划数据集分布的限制。此外,在搜索过程中,LEAPS仅根据每个候选程序的返回结果对其进行评估,未能准确奖励程序的正确部分并惩罚不正确部分。为了解决这些问题,该文建议学习一种元策略,该策略由从学习的程序嵌入空间中采样的一系列程序组成。通过组合程序,文章提出的方法可以生成描述非分布复杂行为的程序策略,并直接为诱导期望行为的程序分配学分。该文在卡雷尔地区设计并进行了广泛的实验。实验结果表明,提出的框架优于基线。