《强化学习周刊》第56期：GraphIRL、REDEEMER & 眼科强化学习的潜在研究

关于周刊：

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第53期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及研究综述，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、小胖）

关于周刊订阅：

告诉大家一个好消息，《强化学习周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“强化学习周刊”（如下图），进入“强化学习周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《强化学习周刊》订阅啦，以后智源社区会自动向您推送最新版的《强化学习周刊》！

论文推荐

本次推荐了14篇强化学习领域的相关论文，主要介绍了基于多智能体DRL方法的无人机分散学习策略、提出了近似策略优化（PPO）方法预测交通需求以降低实际运行成本、基于动态屏蔽技术显著减少训练期间意外事件的数量、通过领域泛化自动增强方法提高视网膜图像分割领域泛化性能、基于软actor-critic 的DRL 警报优先级算法（SAC-AP）以最大化预期奖励及最大化熵、基于对抗的域不变状态表示提高RL的灵活性、最后介绍了增强和主动学习方法REMEDIER（基于增强的CEP pattErn MinER）以充分挖掘CEP模式等。

标题：Playing a 2D Game Indefinitely using NEAT and Reinforcement Learning（Pune Institute of Computer Technology:Jerin Paul Selvan | 使用 NEAT 和强化学习无限期玩 2D 游戏）

简介：十多年来，机器人技术和人工智能体的使用已成为普遍现象。人工智能体可根据算法在其所处的环境中的行为进行操作。其能够以多快的速度区分奖励行为和敌对行为，目标是通过对能够避免所有障碍的行动做出决策来达到最远的目标。本文选择名为“Flappy Bird”的游戏，其目标是让鸟穿过一组随机高度的管道。鸟必须进入这些管道之间，不得撞击顶部、底部或管道本身。鸟可以采取的动作是拍动翅膀或在重力作用下坠落。在人工智能体上实施的算法是增强拓扑的神经进化（NEAT）和增强学习。NEAT算法采用人工智能体的“N”初始种群。它们遵循遗传算法，考虑目标函数、交叉、变异和增广拓扑。强化学习记住状态、在该状态下采取的行动以及使用单个智能体和深度Q学习网络采取的行动所获得的奖励。随着人工智能体初始种群的增加，NEAT算法的性能得到提高。

《强化学习周刊》第56期：GraphIRL、REDEEMER & 眼科强化学习的潜在研究

关于周刊：

关于周刊订阅：

研究综述

新书籍

评论