
关于周刊:
强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第50期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及研究综述,以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:(李明,刘青、小胖)
关于周刊订阅:
告诉大家一个好消息,《强化学习周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:
1,注册智源社区账号
2,点击周刊界面左上角的作者栏部分“强化学习周刊”(如下图),进入“强化学习周刊”主页。
3,点击“关注TA”(如下图)

4,您已经完成《强化学习周刊》订阅啦,以后智源社区会自动向您推送最新版的《强化学习周刊》!
论文推荐
本次推荐了14篇强化学习领域的相关论文,主要介绍了基于半集中式逻辑的 MARL 奖励形成方法以扩展到扩展到多智能体强化学习、提出了双手灵巧手基准测试(Bi-Dexthands)模拟器以实现人类水平的双手灵巧操作、通过精确惩罚优化方法评估安全自动驾驶、提出了一种 Bootstrapped Transformer 新算法结合自举思想以推动离线 RL 训练、通过强化知识感知推理可解释推荐(MBKR) 将微行为和 KG 结合到强化学习进行可解释推荐以研究用户的微观行为、介绍了基于区块链授的联合深度actor-critic任务卸载算法来解决安全和低延迟的计算卸载问题、即介绍了 GCRN 架构结合图卷积网络 (GCN) 来捕获空间依赖关系和双向门控循环单元 (Bi-GRU) 以解决时间依赖关系等。
标题:Fast Population-Based Reinforcement Learning on a Single Machine(InstaDeep Ltd:Arthur Flajolet | 单机上基于群体的快速强化学习)
简介:训练智能体群体在强化学习中表现出巨大的潜力,可以稳定训练、提高探索和渐近性能,并生成多样化的解决方案。然而,实践者通常不会考虑基于人群的训练,因为它被认为要么速度太慢(按顺序实施),要么计算成本高(如果代理在独立的加速器上并行训练)。本文比较了实现并回顾了以前的研究,以表明编译和矢量化的明智使用允许在具有一个加速器的单台机器上执行基于群体的训练,与训练单个代理相比,开销最小。研究还表明,当提供少量加速器时,该协议扩展到用于超参数调整等应用的大型群体。研究者希望该研究和代码的公开发布将鼓励从业者更频繁地使用基于人群的学习来进行相同的研究和应用。
论文链接:https://arxiv.org/pdf/2206.08888.pdf
阅读详情
标题:Logic-based Reward Shaping for Multi-Agent Reinforcement Learning(弗吉尼亚大学:Ingy ElSayed-Aly | 多智能体强化学习中的基于逻辑的奖励形成)
简介:强化学习 (RL) 在很大程度上依赖于探索来从环境中学习并最大化观察到的奖励。因此,必须设计一个奖励函数,以确保从收到的经验中获得最佳学习。先前的研究将基于自动机和逻辑的奖励塑造与环境假设相结合,以提供一种自动机制来根据任务合成奖励函数。然而,关于如何将基于逻辑的奖励形成扩展到多智能体强化学习 (MARL) 方面的工作还很有限。如果任务需要合作,环境将需要考虑联合状态以跟踪其他智能体,从而遭受与智能体数量相关的维度灾难。该项目探讨了如何为不同的场景和任务设计基于逻辑的 MARL 奖励形成。本文提出了一种新颖的基于半集中式逻辑的 MARL 奖励形成方法,该方法在智能体数量上具有可扩展性,并在多个场景中对其进行评估。
论文链接:https://arxiv.org/pdf/2206.08881.pdf
阅读详情
标题:Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement Learning(北京大学:Yaodong Yang | 基于强化学习实现人类水平的双手灵巧操作)
简介:实现人类水平的灵巧性是机器人学中一个重要的开放性问题。本文提出了双手灵巧手基准测试(Bi-Dexthands),一个模拟器,包括两个灵巧手和数十个双手操作任务和数千个目标对象。据研究,双手任务的设计是为了匹配不同水平的人类运动技能。本文在 Issac Gym 建造了 Bi-DexHands;这可以实现高效的RL训练,仅使用一台NVIDIA RTX 3090即可达到30000多帧/秒。为不同设置下流行的RL算法提供了一个全面的基准;这包括单/多智能体RL、离线RL、多任务RL和元RL。研究结果表明,PPO类型的策略算法可以掌握相当于48个月大人类婴儿的简单操作任务(例如,捕捉飞行物体、打开瓶子),而多智能体RL可以进一步帮助掌握需要熟练双手合作的操作(例如,提壶、堆叠积木)。尽管在每项任务上都取得了成功,但当涉及到获得多种操作技能时,现有的RL算法在大多数多任务和少数快照学习环境中都无法工作,这需要RL社区进行更实质性的发展。
论文链接:https://arxiv.org/pdf/2206.08686.pdf
阅读详情
标题:SafeRL-Kit: Evaluating Efficient Reinforcement Learning Methods for Safe Autonomous Driving(清华大学深圳研究院&京东:Xueqian Wang&Li Shen | SafeRL-Kit:评估安全自动驾驶的高效强化学习方法)
简介:安全强化学习(RL)在风险敏感任务上取得了显著的成功,在自动驾驶(AD)方面也显示出了良好的前景。考虑到该群体的独特性,安全AD仍然缺乏有效且可重复的基线。本文发布了 SafeRL-Kit,以对面向AD任务的安全RL方法进行基准测试。即 SafeRL-Kit包含几个针对零约束违反任务的最新算法,包括安全层、恢复RL、离线策略的拉格朗日方法和可行的Actor-Critic。除了现有的方法外,还提出了一种新的一阶方法,称为精确惩罚优化(EPO),并充分证明了其在安全AD中的能力。SafeRL-Kit中的所有算法都是在(i)off-policy 设置下实现的,这提高了样本效率,并能更好地利用过去的日志;(ii)具有统一的学习框架,为研究人员提供现成的接口,将其特定领域的知识纳入基本的安全RL方法。最后,在 SafeRL-Kit 中对上述算法进行了比较评估,并阐明了它们在安全自主驾驶方面的有效性。
论文链接:https://arxiv.org/pdf/2206.08528.pdf
阅读详情
标题:GMI-DRL: Empowering Multi-GPU Deep Reinforcement Learning with GPU Spatial Multiplexing(加州大学圣芭芭拉分校:Yuke Wang | GMI-DRL:通过 GPU 空间复用增强多 GPU 深度强化学习)
简介:随着机器人技术在工业控制和自动驾驶领域的日益普及,深度强化学习(DRL)引起了各个领域的关注。然而,由于其异构的工作负载和交错的执行模式,在现有功能强大的GPU平台上进行DRL计算仍然效率低下。为此,本文提出了GMI-DRL,通过GPU空间复用加速多GPU DRL的系统设计。基于一种新的资源可调GPU复用实例(GMI)设计,以满足DRL任务的实际需要,一种自适应GMI管理策略,以同时实现高GPU利用率和计算吞吐量,以及一种高效的GMI间通信支持,以满足各种DRL通信模式的需求。综合实验表明,GMI-DRL在最新DGX-A100平台上的训练吞吐量方面优于最先进的NVIDIA Isaac Gym,NCCL(高达2.81倍)和Horovod(高达2.34倍)支持。该研究通过 GPU 空间多路复用处理混合计算和通信的异构工作负载提供了初始用户体验。
论文链接:https://arxiv.org/pdf/2206.08482.pdf
阅读详情
标题:Bootstrapped Transformer for Offline Reinforcement Learning(上海交通大学:Kerong Wang | 基于离线强化学习的自举Transformer)
简介:离线强化学习 (RL) 旨在从先前收集的静态轨迹数据中学习策略,而无需与真实环境进行交互。现有研究提供了一个新颖视角,将离线 RL 视为通用序列生成问题,采用 Transformer 架构等序列模型对轨迹上的分布进行建模,并将波束搜索重新用作规划算法。然而,一般离线 RL 任务中使用的训练数据集非常有限,并且经常存在分布覆盖不足的问题,这可能对训练序列生成模型有害,但在先前研究中并未引起足够的重视。本文提出了一种 Bootstrapped Transformer 的新算法,它结合了自举的思想,利用学习到的模型自行生成更多的离线数据,进一步推动序列模型的训练。通过对两个离线 RL 基准进行了大量实验证明了该模型可以在很大程度上弥补现有的离线 RL 训练的局限性,并击败其他强大的基线方法。还分析了生成的伪数据,所揭示的特征可能会对离线 RL 训练提供一些启示。
论文链接:https://arxiv.org/pdf/2206.08569.pdf
阅读详情
标题:Micro-behaviour with Reinforcement Knowledge-aware Reasoning for Explainable Recommendation(东华大学: Shaohua Tao|具有强化知识感知推理的可解释推荐微观行为研究)
简介:现有的推荐方法已将项目知识融入到用户项目交互的微观行为中。尽管此类方法被证明是有效的,但有两种观点常常被忽视。首先,未将微观行为与知识图(KG)的关系结合起来,未捕捉到微观行为与关系之间的语义关系。其次,未从用户项目交互数据中为微观行为提供明确的推理。这些见解促使本文提出了新颖的微行为模型,即强化知识感知推理可解释推荐(MBKR) ,该模型将微行为和 KG 结合到强化学习中以进行可解释的推荐。其通过用户项传播和 KG 关系来学习用户的行为,并将两者结合起来计算挖掘用户兴趣的行为强度。此外还设计了 Shawo关系路径,通过提供合理的路径将推荐和可解释性结合起来; 这些路径捕获行为和关系的语义。最后在几个大型基准数据集上广泛评估了此方法。
论文链接:https://www.sciencedirect.com/science/article/pii/S0950705122006529
阅读详情
标题:Neural H₂ Control Using Continuous-Time Reinforcement Learning(CINVESTAV-IPN: Adolfo Perrusquia|基于连续时间强化学习的神经 H2控制)
简介:在本文讨论了未知非线性系统的连续时间 H2 控制。其使用差分神经网络对系统进行建模,然后应用基于神经模型的 H2 跟踪控制。由于神经 H2 控制对神经建模误差非常敏感,故使用强化学习来提高控制性能。证明了神经建模和 H2 跟踪控制的稳定性,并给出了该方法的收敛性。通过两个基准控制问题验证了该方法的有效性。
论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9269440
阅读详情
标题:Residual Physics and Post-Posed Shielding for Safe Deep Reinforcement Learning Method(新加坡国立大学: Qingang Zhang|安全深度强化学习方法的残差物理和后置屏蔽)
简介:深度强化学习 (DRL) 已针对数据中心 (DC) 中的机房空调单元控制问题进行了研究。但两个主要问题限制了 DRL 在实际系统中的部署。首先,需要大量数据。其次,作为一个关键任务系统,需要保证安全控制,并且DC中的温度应该保持在一定范围内。为此,本文提出了一种新颖的控制方法 RP-SDRL。其首先使用热力学第一定律构建的残差物理与 DRL 算法和预测模型相结合。随后,从梯度下降适应的校正模型与作为后置屏蔽的预测模型相结合,以强制执行安全操作。使用仿真验证了 RP-SDRL 方法。将噪声添加到模型的状态中,以进一步测试其在状态不确定性下的性能。实验结果表明,该方法可以显著提高初始策略、样本效率和鲁棒性。残差物理还可以提高样本效率和预测模型的准确性。
论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9796122
阅读详情
标题:Blockchain and Federated Deep Reinforcement Learning Based Secure Cloud-Edge-End Collaboration in Power IoT(华北电力大学: Sunxuan Zhang|电力物联网中基于区块链和联合深度强化学习的安全云端协作)
简介:云端协作为物联网(PIOT)提供了和谐高效的资源分配。然而,计算卸载的安全性和复杂性问题演变成主要障碍。本文首先提出了基于区块链和人工智能的安全云端协作 PIOT (BASE-PIOT)架构,以确保数据安全和智能计算卸载。阐述了它在灵活的资源分配、安全的数据共享和差异化服务保证等方面的优势。然后分析了三种典型区块链对 PIOT 的适应性,并给出了 BASE-PIOT 的一些典型应用场景,包括计算卸载、能量调度和访问认证。最后提出了基于区块链授的联合深度actor-critic任务卸载算法来解决安全和低延迟的计算卸载问题。长期安全约束和短期队列延迟优化之间的耦合通过使用李雅普诺夫优化来解耦。数值结果验证了该算法在总排队延迟和一致延迟方面的优良性能。
论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9801730
阅读详情
标题:Robust Task Representations for Offline Meta-Reinforcement Learning via Contrastive Learning(北京大学: Haoqi Yuan| ICML 2022: 通过对比学习实现离线元强化学习的鲁棒任务表示)
简介:本文主要研究内容为离线元强化学习,这是一种实用的强化学习范式,可以从离线数据中学习以适应新任务。 离线数据的分布由行为策略和任务共同决定。 现有的离线元强化学习算法无法区分这些因素,使得任务表示对行为策略的变化不稳定。 为了解决此问题,提出了一个任务表示的对比学习框架——CORRO(COntrastive Robust task Representation learning for OMRL),该框架对训练和测试中行为策略的分布不匹配具有鲁棒性。 并设计了一个双层编码器结构,使用互信息最大化来形式化任务表示学习,推导出对比学习目标,并引入几种方法来近似负对的真实分布。 对各种离线元强化学习基准的实验证明了该方法相对于先前方法的优势,特别是在对分布外行为策略的泛化方面。
论文链接:https://arxiv.org/pdf/2206.10442.pdf
阅读详情
标题:The State of Sparse Training in Deep Reinforcement Learning(谷歌: Laura Graesser| ICML 2022: 深度强化学习中的稀疏训练状态)
简介:近年来,稀疏神经网络在深度学习各领域的使用迅速增长,尤其是在计算机视觉领域。 稀疏神经网络的吸引力主要源于训练和存储所需参数数量的减少,以及学习效率的提高。 有点令人惊讶的是,很少有人努力探索它们在深度强化学习 (DRL) 中的应用。 本文通过对在各种深度强化学习智能体和环境中应用一些现有的稀疏训练技术进行了系统的调查。 最终调查结果证实了计算机视觉领域中稀疏训练的结果——在深度强化学习领域中,对于相同的参数计数,稀疏网络的性能优于密集网络。 作者团队详细分析了深度强化学习中的各种组件如何受到稀疏网络的使用的影响,并通过提出有希望的途径来提高稀疏训练方法的有效性以及推进它们在深度强化学习中的使用。
论文链接:https://arxiv.org/pdf/2206.10369.pdf
阅读详情
标题:Multi-UAV Planning for Cooperative Wildfire Coverage and Tracking with Quality-of-Service Guarantees(佐治亚理工学院: Esmaeil Seraj|具有服务质量保证的多无人机野火协同覆盖和跟踪规划)
简介:近年来,现有研究委托机器人和无人机(UAV)团队实现准确的野火覆盖和跟踪。虽然之前的诸多研究侧重于此类多机器人系统的协调和控制,但迄今为止,这些无人机团队还没有能力对火灾轨迹(即位置和传播动力学)进行推理,以在一段时间内提供性能保证。本文提出了一个预测框架,使多无人机团队能够在概率性能保证的情况下,在协同野火覆盖和火情跟踪方面进行合作。该方法使无人机能够推断潜在的火灾传播动力学,以便在安全关键条件下进行长时间协调。并推导了一组新颖的分析时间和跟踪误差界限,以使无人机团队能够根据具体情况的估计状态分配其有限的资源并覆盖整个火力区域,并提供概率性能保证。该方案普遍适用于搜索救援、目标跟踪和边境巡逻等问题。定量评估验证了此方法的性能,与最先进的基于模型和强化学习基准相比,跟踪误差分别减少了7.5倍和9.0倍。
论文链接:https://arxiv.org/pdf/2206.10544.pdf
阅读详情
标题:Graph Convolutional Recurrent Networks for Reward Shaping in Reinforcement Learning(康考迪亚大学: Hani Sami|图卷积循环网络用于强化学习中的奖励生成)
简介:本文考虑了强化学习 (RL) 中的低速收敛问题,提出了一种新的奖励生成方案,它结合了 (1) 图卷积循环网络 (GCRN)、(2) 增强型 Krylov 和 (3) 前瞻建议以形成潜在函数。通过 GCRN 架构结合了图卷积网络 (GCN) 来捕获空间依赖关系和双向门控循环单元 (Bi-GRU) 来解决时间依赖关系。并对 GCRN 损失函数的定义结合了隐马尔可夫模型 (HMM) 的消息传递技术。由于环境的转移矩阵难以计算,使用 Krylov 基来估计转移矩阵,其性能优于现有的近似基。与仅依赖状态来执行奖励塑造的现有潜在功能不同,通过前瞻建议机制同时使用状态和动作来产生更精确的建议。各项测试表明,该解决方案在学习速度方面优于当前最先进的解决方案,同时获得更高的奖励。
论文链接:https://www.sciencedirect.com/science/article/pii/S0020025522006442
阅读详情
研究综述
标题:卡塔尔大学:Omar Elharrouss | Backbones-Review:深度学习和深度强化学习方法的特征提取网络
简介:为了使用各种类型的数据理解现实世界,人工智能(AI)是当今最常用的技术。在分析数据中找到模式是主要任务,并且从大规模数据中选择有用的特征是至关重要的挑战。目前随着卷积神经网络(CNN)的发展,特征提取操作变得更加自动化和简单。CNN允许处理大规模数据,并覆盖特定任务的不同场景。在计算机视觉任务中,卷积网络也用于提取深度学习模型其他部分的特征。为特征提取或DL模型的其他部分选择合适的网络不是随机工作。因此,这种模型的实现可能与目标任务及其计算复杂性有关。许多网络已成为任何人工智能任务中用于任何DL模型的著名网络。这些网络可用于特征提取或在任何DL模型(称为主干)的开始处使用。主干网络是先前在许多其他任务中受过训练的已知网络,并证明其有效性。本文综述了现有主干网络,如VGG、RESNET、DenseNet等,并对其进行了详细描述及性能比较。
论文链接:https://arxiv.org/pdf/2206.08016.pdf
阅读详情
标题:Reinforcement Learning based Recommender Systems: A Survey(卡尔加里大学: M. Mehdi Afsa|基于强化学习的推荐系统综述)
简介:推荐系统 (RS) 已成为日常生活中不可分割的一部分。传统上,推荐问题被认为是分类或预测问题,但现在人们普遍认为,将其表述为顺序决策问题可以更好地反映用户-系统交互。因此,它可以表述为马尔可夫决策过程(MDP)并通过强化学习(RL)算法来解决。与传统的推荐方法(包括协同过滤和基于内容的过滤)不同,RL 能够处理顺序的、动态的用户系统交互,并考虑到长期的用户参与。本文介绍了基于强化学习的推荐系统 (RLRS) 的研究。首先认识到并说明 RLRS 通常可以分为基于 RL 和 DRL 的方法。然后,提出了一个包含四个部分的 RLRS 框架,即状态表示、策略优化、奖励制定和环境建设,并相应地综述 RLRS 算法。本文使用各种图表突出新兴主题并描绘重要趋势。最后,讨论了未来可以解决的重要方面和挑战。
论文链接:https://dl.acm.org/doi/pdf/10.1145/3543846
阅读详情
如果你正在从事或关注强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
请扫描下方二维码加入。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢