《强化学习周刊》第36期：DDA3C、因果推理干预、逆强化学习

关于周刊：

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第36期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、小胖）

关于周刊订阅：

告诉大家一个好消息，《强化学习周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“强化学习周刊”（如下图），进入“强化学习周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《强化学习周刊》订阅啦，以后智源社区会自动向您推送最新版的《强化学习周刊》！

背景：

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如分布式离线强化学习、深度协作多智能体强化学习、协作分布式深度强化学习、离线元强化学习、离线训练强化学习、逆强化学习及分层强化学习相关的理论及其最新应用等。

论文推荐：

本次推荐了13篇强化学习领域的相关论文，主要涉及于DDA3C：群体智能体系统中的协作分布式深度强化学习、基于深度协作多智能体强化学习中的价值分解算法、分布式离线强化学习中通信复杂度的确定、更安全：通过技能获取实现数据高效和安全强化学习、具有可实现性和单策略集中性的离线强化学习、基于离线训练强化学习的对抗性训练演员评论家、基于模型的正则化离线元强化学习、选项兼容奖励逆强化学习、基于噪声环境的鲁棒多智能体强化学习、智能问题解决作为集成的分层强化学习、基于强化学习的连续控制行为学习与自适应机器人操作、基于深度强化学习的无人机自主切换决策、基于强化学习的因果推理随机干预等。

标题：DDA3C: Cooperative Distributed Deep Reinforcement Learning in A Group-Agent System（DDA3C：群体智能体系统中的协作分布式深度强化学习）

简介：如果多个智能体协同执行各自的强化学习任务，则可极大地改善每个智能体的强化学习过程。这些任务可能并不完全相同，但由于任务的相似性，它们仍然受益于代理之间的通信行为。事实上，这个学习场景还没有被很好地理解和制定。作为第一项工作，本文通过对该场景进行详细的讨论，并提出了群体agent强化学习作为该场景下强化学习问题的表述，以及关于单agent和多agent强化学习的第三类强化学习问题。本文提出借助现代深度强化学习技术可以解决此问题，并提供了分布式深度强化学习算法DDA3C（Discentralised distributed Asynchronous Advantage Actor Critic，去中心化分布式异步优势演员-评论家），其为第一个为群代理强化学习设计的框架。并在CartPole-v0游戏环境中的实验表明DDA3C 取得了理想的性能并具有良好的可扩展性。

《强化学习周刊》第36期：DDA3C、因果推理干预、逆强化学习

关于周刊：

关于周刊订阅：

背景：

论文推荐：

研究综述

评论