【标题】First-Order Problem Solving through Neural MCTS based Reinforcement Learning

【作者团队】Ruiyang Xu, Prashank Kadam, Karl Lieberherr

【研究团队】 Northeastern University, Boston, Khoury College of Computer Sciences

【论文链接】https://arxiv.org/pdf/2101.04167.pdf

【发表时间】2021.01.11

【推荐理由】游戏语义可将描述和其一阶逻辑(FOL)解释映射为一个二玩家的语义游戏,其组合问题(combinatorial problem)又可使用FOL描述并映射为语义游戏。本文提出了一个通用框架Persephone来将多智能体的组合问题的FOL描述映射为语义游戏,使其可通过基于RL算法的神经蒙特卡洛树搜索(MCTS)来解决。本文还研究了本文提出的网络中的不对称性,并通过半热态启动MCTS、不同的策略学习方法以及不对称的神经网络来提升Peresphone的性能。实验表明,带有半热态启动的MCTS的KL-差异正则化PPO学习策略以及不对称神经网络的效果最好。

神经MCTS可应对具有超大状态空间和稀疏奖励的环境,因此可应用于组合问题。作者不但提出了针对于FOL-可表达的组合问题的框架Persephone,同时还探究了神经MCTS和RL之间的联系,以提升算法性能。本文对Persephone的结构、状态描述、热态启动MCTS、策略学习和多种神经网络做了详细叙述。并在多种配置的环境中进行了实验,实验结果和最好的参数、技术配置可在论文中查看。

内容中包含的图片若涉及版权问题,请及时与我们联系删除