关于周刊:

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第36期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等,以飨诸位。
 
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
 
本期贡献者:(李明,刘青、小胖)

 

关于周刊订阅:

告诉大家一个好消息,《强化学习周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

1,注册智源社区账号

2,点击周刊界面左上角的作者栏部分“强化学习周刊”(如下图),进入“强化学习周刊”主页。

 
 

3,点击“关注TA”(如下图)

 

4,您已经完成《强化学习周刊》订阅啦,以后智源社区会自动向您推送最新版的《强化学习周刊》!

 

背景:

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如分布式离线强化学习、深度协作多智能体强化学习协作分布式深度强化学习离线元强化学习、离线训练强化学习、逆强化学习及分层强化学习相关的理论及其最新应用等。

 

论文推荐:

本次推荐了13篇强化学习领域的相关论文,主要涉及于DDA3C:群体智能体系统中的协作分布式深度强化学习、基于深度协作多智能体强化学习中的价值分解算法、分布式离线强化学习中通信复杂度的确定、更安全:通过技能获取实现数据高效和安全强化学习、具有可实现性和单策略集中性的离线强化学习、基于离线训练强化学习的对抗性训练演员评论家、基于模型的正则化离线元强化学习、选项兼容奖励逆强化学习、基于噪声环境的鲁棒多智能体强化学习、智能问题解决作为集成的分层强化学习、基于强化学习的连续控制行为学习与自适应机器人操作、基于深度强化学习的无人机自主切换决策、基于强化学习的因果推理随机干预

 

标题:DDA3C: Cooperative Distributed Deep Reinforcement Learning in A Group-Agent System(DDA3C:群体智能体系统中的协作分布式深度强化学习)

简介:如果多个智能体协同执行各自的强化学习任务,则可极大地改善每个智能体的强化学习过程。这些任务可能并不完全相同,但由于任务的相似性,它们仍然受益于代理之间的通信行为。事实上,这个学习场景还没有被很好地理解和制定。作为第一项工作,本文通过对该场景进行详细的讨论,并提出了群体agent强化学习作为该场景下强化学习问题的表述,以及关于单agent和多agent强化学习的第三类强化学习问题。本文提出借助现代深度强化学习技术可以解决此问题,并提供了分布式深度强化学习算法DDA3C(Discentralised distributed Asynchronous Advantage Actor Critic,去中心化分布式异步优势演员-评论家),其为第一个为群代理强化学习设计的框架。并在CartPole-v0游戏环境中的实验表明DDA3C 取得了理想的性能并具有良好的可扩展性。

论文链接:https://arxiv.org/pdf/2202.05135.pdf

阅读详情

 

标题:Understanding Value Decomposition Algorithms in Deep Cooperative Multi-Agent Reinforcement Learning(基于深度协作多智能体强化学习中的价值分解算法)

简介:价值函数分解正在成为合作博弈中扩展多智能体强化学习(MARL)的常用经验法则。为使此类分解规则成立,必须假设单个全局最大值(IGM)原则;即每个智能体的分解值函数上的局部最大值必须等于联合值函数上的全局最大值。然而,这一原则并不一定要普遍适用。因此,值分解算法的适用性被隐藏,其相应的收敛性仍然未知。本文首先尝试回答这些问题,其引入了一组合作对策,其中的值分解方法是有效的,称之为可分解对策。在可分解博弈中,本文从理论上证明了应用多智能体适配Q-迭代算法(MA-FQI)将得到最优Q-函数。在不可分解对策中,在每次迭代时Q函数需要投影到可分解函数空间的情况下,MA-FQI估计的Q函数仍然可以收敛到最优。在这两种设置中,本文考虑值函数表示通过实际的深度神经网络,并得出其相应的收敛速度。本文的结果首次为MARL从业者提供了价值分解算法何时收敛以及为何表现良好的理论见解。

论文链接:https://arxiv.org/pdf/2202.04868.pdf

阅读详情

 

标题:Settling the Communication Complexity for Distributed Offline Reinforcement Learning(分布式离线强化学习中通信复杂度的确定)

简介:本文研究了离线强化学习 (RL) 中的一种新设置,其中许多分布式机器联合协作解决问题,但只允许单轮通信,并且每台机器可以发送的信息总数(以比特为单位)存在预算约束。对于上下文bandits中的价值函数预测,以及偶发和非偶发 MDP,本文建立了分布式统计估计的极大极小风险的信息论下界;这揭示了任何离线 RL 算法所需的最小通信量。具体来说,对于上下文强盗,研究表明比特数必须至少按比例缩放Ω ( AC)匹配集中的极小极大最优率,其中A是动作的数量和C是上下文维度;同时,在 MDP 设置中也得到了类似的结果。此外,本文提出了基于最小二乘估计和蒙特卡洛回报估计的学习算法,并提供了一个清晰的分析,表明它们可以实现对数因子的最佳风险。此外,该研究还表明,由于该方法的初始偏差,时间差异无法在单轮通信设置下有效地利用来自所有可用设备的信息。据研究所知,本文提出了分布式离线 RL 问题的第一个极小极大下界。

论文链接:https://arxiv.org/pdf/2202.04862.pdf

阅读详情

 

标题:SAFER: Data-Efficient and Safe Reinforcement Learning via Skill Acquisition(更安全:通过技能获取实现数据高效和安全强化学习)

简介:尽管许多强化学习(RL)问题涉及在难以指定安全约束和稀疏奖励的环境中学习策略,但目前的方法难以获得成功和安全的策略。使用生成性建模从离线数据集中提取有用策略原语的方法最近显示出在这些更复杂的环境中加速RL的前景。然而,研究发现,目前的原始学习方法可能不适合安全策略学习,并且可能会促进不安全行为,因为它们倾向于忽略来自不良行为的数据。为了克服这些问题,本文提出了安全技能优先(SAFER),这是一种在安全约束下加速复杂控制任务策略学习的算法。通过对离线数据集的原则性培训,SAFER学习提取安全的原始技能。在推理阶段,接受过安全培训的政策将学习将安全技能组合成成功的政策。本文从理论上描述了为什么SAFER可以实施安全策略学习,并证明了它在受游戏操作启发的几个复杂的安全关键机器人抓取任务上的有效性,其中SAFER在学习成功的策略和实施安全方面优于基线方法。

论文链接:https://arxiv.org/pdf/2202.04849.pdf

阅读详情

 

标题:Offline Reinforcement Learning with Realizability and Single-policy Concentrability(具有可实现性和单策略集中性的离线强化学习)

简介:离线强化学习(RL)的样本效率保证通常依赖于对函数类(如Bellman完备性)和数据覆盖率(如所有策略集中性)的有力假设。尽管最近做出了放松这些假设的研究,但现有的工作只能放松这两个因素中的一个,而对另一个因素的强大假设则完好无损。作为一个重要的开放性问题,能否在对这两个因素的假设较弱的情况下实现样本有效的离线RL显得尤为重要,本文以肯定的方式回答这个问题。通过分析了一个基于MDP原始-对偶公式的简单算法,其中对偶变量(折扣入住率)使用密度比函数对离线数据进行建模。通过适当的正则化证明了该算法在仅可实现和单策略集中的情况下,具有多项式样本复杂度。该研究还提供了基于不同假设的替代分析,以阐明离线RL的原始-对偶算法的性质。

论文链接:https://arxiv.org/pdf/2202.04634.pdf

阅读详情

 

标题:Adversarially Trained Actor Critic for Offline Reinforcement Learning(基于离线训练强化学习的对抗性训练演员评论家)

简介:本文提出了 Adversarially Trained Actor Critic (ATAC),这是一种新的无模型算法,用于在数据覆盖不足的情况下进行离线强化学习,基于离线 RL 的两人 Stackelberg 游戏框架:策略参与者与经过对抗训练的价值评论家竞争,后者发现参与者不如数据收集行为策略的数据一致场景。研究表明,当参与者在两人游戏中没有后悔时,运行 ATAC 产生的策略可证明: 1)在广泛的超参数范围内优于行为策略,以及 2)以适当的方式与数据覆盖的最佳策略竞争选择的超参数。与现有研究相比,值得注意的是,该框架既为通用函数逼近提供了理论保证,又为可扩展到复杂环境和大型数据集的深度 RL 实现提供了保障。在 D4RL 基准测试中,ATAC 在一系列连续控制任务上始终优于最先进的离线 RL 算法。

论文链接:https://arxiv.org/pdf/2202.02446.pdf

阅读详情

 

标题:Model-Based Offline Meta-Reinforcement Learning with Regularization(基于模型的正则化离线元强化学习)

简介:现有的离线强化学习(RL)方法面临一些主要挑战,尤其是学习策略和行为策略之间的分布变化。离线元RL正在成为解决这些挑战的一种有前途的方法,旨在从一系列任务中学习信息丰富的元策略。然而,正如研究所示,在数据集质量良好的任务上,离线元RL方法可能优于离线单任务RL方法。基于此,本文探索了基于模型的离线元RL和正则化策略优化(MerPO),它学习了一个元模型,用于有效的任务结构推理,以及一个信息元策略,用于安全探索分布外状态的行动。本文设计了一种新的基于元正则化模型的角色-批评(RAC)方法,用于任务内策略优化,作为MerPO的关键构建块,使用保守策略评估和正则化策略改进;内在权衡是通过在两个正则化器之间取得适当的平衡来实现的,分别为基于行为策略和元策略。该研究从理论上证明,学习策略比行为策略和元策略都有保证的改进,从而确保通过离线元RL提高新任务的性能。实验证实了MerPO比现有离线Meta-RL方法优越的性能。

论文链接:https://arxiv.org/pdf/2202.02929.pdf

阅读详情

 

标题:Option compatible reward inverse reinforcement learning(选项兼容奖励逆强化学习)

简介:复杂环境下的强化学习是一个具有挑战性的问题。特别是,强化学习算法的成功取决于精心设计的奖励函数。逆强化学习 (IRL) 解决了从专家演示中恢复奖励函数的问题。本文解决了选项框架内的分层逆强化学习问题,从而使得能够利用专家演示的内在动机。参数化选项的梯度方法用于推导出 Q 特征空间的定义方程,从而得到奖励特征空间。使用期权参数的二阶最优条件,选择最优奖励函数。离散域和连续域的实验结果证实,本文恢复的奖励使用时间抽象提供了 IRL 问题的解决方案,这反过来又有效地加速了迁移学习任务,并且此方法对专家演示中包含的噪声具有鲁棒性。

论文链接:https://www.sciencedirect.com/science/article/pii/S0167865522000241#!

阅读详情

 

标题:Robust multi-agent reinforcement learning for noisy environments(基于噪声环境的鲁棒多智能体强化学习)

简介:尽管最近在强化学习 (RL) 方面取得了进展,但由 RL 训练的智能体通常对环境敏感,尤其是在多智能体场景中。现实世界的环境通常是嘈杂的。从噪声环境中获得的不准确信息会阻碍智能体的学习,甚至导致训练失败。本文关注在噪声环境中训练多个鲁棒智能体的问题。对此本文提出了一种新的算法,多智能体容错强化学习(MAFTRL)。本文主要思想是建立智能体自身的错误检测机制,设计智能体之间的信息通信媒介。错误检测机制基于自动编码器,计算每个智能体观察的可信度,有效降低环境噪声。基于注意力机制的通信媒介可以显著提高智能体提取有效信息的能力。实验结果表明,本文的方法准确地检测了智能体的错误观察,在传统的可靠环境和嘈噪声环境中都具有良好的性能和较强的鲁棒性。

论文链接:https://link.springer.com/content/pdf/10.1007/s12083-021-01133-2.pdf

阅读详情

 

标题:Intelligent problem-solving as integrated hierarchical reinforcement learning(智能问题解决作为集成的分层强化学习)

简介:根据认知心理学和相关学科,生物主体复杂问题解决行为的发展依赖于分层认知机制。分层强化学习是一种很有前途的计算方法,最终可能会在人工智能体和机器人中产生类似的问题解决行为。目前为止,许多人类和非人类动物的解决问题的能力明显优于人工系统。本文提出了整合受生物学启发的分层机制的步骤,以实现人工智能智能体的高级问题解决技能。本文首先回顾认知心理学的文献,以强调组合抽象和预测处理的重要性。然后,将获得的见解与当代分层强化学习方法联系起来。研究结果表明,所有已识别的认知机制都已在孤立的计算架构中单独实现。作为最后贡献,本文通过提供关于开发这种统一架构的计算挑战的综合观点来解决这个问题。

论文链接:

https://www.nature.com/articles/s42256-021-00433-9?utm_source=xmol&utm_medium=affiliate&utm_content=meta&utm_campaign=DDCN_1_GL01_metadata

阅读详情

 

标题:Continuous control actions learning and adaptation for robotic manipulation through reinforcement learning(基于强化学习的连续控制行为学习与自适应机器人操作)

简介:本文提出了一种基于学习的方法,利用仿真数据,使用两种无模型强化学习算法(RL)来学习对象操作任务。比较了基于策略和非策略算法的学习性能:近端策略优化(PPO)和软参与者批评(SAC)。为了加快学习过程,提出了一种微调程序,该程序演示了基于策略的RL对新环境的持续适应,允许学习到的策略适应并执行(部分)修改的任务。为任务设计了一个密集的奖励函数,以实现对智能体的有效学习。将涉及Franka Emika Panda机械手的抓取任务视为要学习的参考任务。学习到的控制策略被证明可以推广到多个物体几何形状和初始机器人/零件配置中。

论文链接:https://link.springer.com/content/pdf/10.1007/s10514-022-10034-z.pdf

阅读详情

 

标题:Proactive Handover Decision for UAVs with Deep Reinforcement Learning(基于深度强化学习的无人机自主切换决策)

简介:无人驾驶飞行器 (UAV) 的应用在监控、物流和娱乐等领域迅速增长,需要与蜂窝网络持续连接以确保其无缝运行。然而,当前蜂窝网络中的切换策略主要是为地面用户设计的,由于空中信号强度的频繁波动,不适用于无人机。本文提出了一种新的切换决策方案,该方案部署了深度强化学习 (DRL),以防止不必要的切换,同时保持稳定的连接性。所提出的 DRL 框架将无人机状态作为近端策略优化算法的输入,并基于奖励函数开发接收信号强度指标 (RSSI),用于在线学习无人机切换决策。所提出的方案在 3D 仿真 UAV 移动环境中进行评估,与贪婪和基于 Q 学习的 UAV 切换决策方案相比,它分别减少了高达 76% 和 73% 的不必要切换。

论文链接:https://www.mdpi.com/1424-8220/22/3/1200/htm

阅读详情

 

标题:Stochastic Intervention for Causal Inference via Reinforcement Learning(基于强化学习的因果推理随机干预)

简介:因果推理方法广泛应用于精准医学、最优策略和经济学等各种决策领域。因果推理的主要焦点是干预策略的治疗效果估计,现有方法大多局限于确定性治疗,并比较不同治疗下的结果。然而他们缺乏解决细粒度治疗效果估计以增强决策应用的能力。本文通过提出一个新的有效框架来估计随机干预下的治疗效果来推进因果推理研究。本文开发了一种基于非参数影响函数的随机干预效果估计器(SIE),具有鲁棒性和快速收敛速度的理论保证。此外,本文构建了一个基于随机搜索求解器的定制强化学习算法,可以有效地找到最优策略,从而为决策过程产生最大的预期结果。最后,本文进行了广泛的实证实验,以验证此框架与最先进的基线相比可以实现卓越的性能。

【论文链接】https://www.sciencedirect.com/science/article/pii/S0925231222001072#!

阅读详情

 

研究综述

标题:A survey of inverse reinforcement learning(逆强化学习综述)

简介:从示范中学习,或模仿学习,是从老师提供的例子中学习在环境中行动的过程。逆强化学习(IRL)是一种从演示中学习的特殊形式,它试图从老师提供的示例中估计马尔可夫决策过程的奖励函数。奖励函数通常被认为是对一项任务最简洁的描述。在简单的应用中,奖励函数可能是已知的,也可能很容易从系统的属性中导出,并硬编码到学习过程中。然而,在复杂的应用中,这可能是不可行的,而且通过观察教师的行为来学习奖励函数可能更容易。本文对IRL的相关文献进行了综述。这项调查概述了IRL和两种类似方法之间的差异——学徒学习和逆最优控制。此外,本调查根据主要方法组织了IRL文献,描述了IRL算法的应用,并提供了未来研究的领域。

论文链接:https://link.springer.com/content/pdf/10.1007/s10462-021-10108-x.pdf

阅读详情

 

标题:A Survey of Domain-Specific Architectures for Reinforcement Learning(强化学习领域特定架构综述)

简介:强化学习算法在解决多个不同问题领域的连续决策问题上取得了巨大的成功。然而,他们的训练通常很耗时,训练时间从几个小时到几周不等。强化学习领域特定体系结构的开发有望加快计算速度,减少实验周转时间,提高能源效率。本文综述了强化学习算法加速的硬件结构。基于FPGA的实现是这项工作的重点,但也考虑了基于GPU的方法。此综述包括表格和深度强化学习算法。重点介绍并比较了不同实现中使用的技术。最后,根据前面对现有体系结构的讨论,提出了未来工作的可能领域。

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9694573

阅读详情

 

如果你正在从事或关注强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

 

学习前沿知识、求解疑难困惑

分享经验心得、展示风貌才华

参与专属活动、结识研究伙伴

 

请扫描下方二维码加入强化学习群(备注:“姓名+单位+强化学习”才会验证进群哦)

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除