关于周刊:

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第57期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及开源算法,以飨诸位。

 

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

 

本期贡献者:(李明,刘青、小胖)

 

关于周刊订阅:

告诉大家一个好消息,《强化学习周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

1,注册智源社区账号

2,点击周刊界面左上角的作者栏部分“强化学习周刊”(如下图),进入“强化学习周刊”主页。

 
 

3,点击“关注TA”(如下图)

 

4,您已经完成《强化学习周刊》订阅啦,以后智源社区会自动向您推送最新版的《强化学习周刊》!

 

论文推荐

本次推荐了13篇强化学习领域的相关论文,主要介绍了基于双层深度强化学习方法提高多架无人机任务调度的模型性能、基于 FedDRL应用深度强化学习自适应确定影响因子的权重以规避全局模型收敛到过拟合、通过上下文强化学习中的非对称 Actor-Critic(AACC)作为一种端到端的 Actor-Critic 方法来提高强化学习的泛化能力、基于异构智能体镜像学习 (HAML) 新框架为 MARL 算法设计提供了通用模板、基于对抗性多智能体强化学习框架 (RAMARL-DR)以减少对抗性攻击引起的严重影响基于多智能体在线学习算法,该算法学习部分、延迟和嘈杂的状态信息,以增强模型的收敛性和泛化性、最后介绍了CathSim开源模拟环境,以加速自主血管内导航机器学习算法的开发

 

标题:DL-DRL: A double-layer deep reinforcement learning approach for large-scale task scheduling of multi-UAV(中南大学:Guohua Wu | DL-DRL:一种用于多无人机大规模任务调度的双层深度强化学习方法)

简介:本文研究了针对多架无人机(UAV)的任务调度问题的深度强化学习(DRL)。现有方法通常使用精确和启发式算法来解决问题,而计算时间随着任务规模的增长而迅速增加,并且启发式规则需要手动设计。本文提出基于分治的框架(DCF),将原始问题解耦为任务分配和无人机路线规划子问题,基于 DCF提出了双层深度强化学习方法(DL-DRL),其中上层 DRL 模型旨在将任务分配给适当的无人机和下层 DRL 模型[即广泛使用的注意力模型(AM)]用于生成可行的无人机路线。进而提出交互式训练策略(ITS),其中整个训练过程包括预训练、强化训练和交替训练过程。实验结果表明, DL-DRL 优于基于学习的主流方法和大多数传统方法,并且与最先进的启发式方法 [即 OR-Tools] 具有竞争力。DL-DRL 的强大通用性也通过将针对问题规模学习到的模型测试到更大的问题来验证。消融研究表明 ITS 可以在模型性能和训练持续时间之间取得折衷。

论文链接:https://arxiv.org/pdf/2208.02447.pdf

阅读详情

 

标题:FedDRL: Deep Reinforcement Learning-based Adaptive Aggregation for Non-IID Data in Federated Learning(VinUniversity:Huy Hieu Pham | FedDRL:基于深度强化学习的联邦学习中非 IID 数据的自适应聚合)

简介:本地数据在不同边缘设备(客户端)上的不均匀分布导致模型训练缓慢和联邦学习的准确性降低。朴素的联邦学习 (FL) 策略和大多数替代解决方案试图通过跨客户端加权聚合深度学习模型来实现更多公平。本文引入了一种在现实世界数据集中遇到的新型非 IID 类型,即集群偏斜,其中客户端组具有具有相似分布的本地数据,导致全局模型收敛到过拟合解决方案。为了处理非 IID 数据,特别是集群倾斜数据,其提出了 FedDRL,一种新颖的 FL 模型,它采用深度强化学习来自适应地确定每个客户端的影响因子(将用作聚合过程中的权重)。在一组联邦数据集上进行的大量实验证实,所提出的FedDRL相对于FedAvg和FedProx方法有良好的改进,例如,对于CIFAR-100数据集,平均分别高达4.05%和2.17%。

论文链接:https://arxiv.org/pdf/2208.02442.pdf

阅读详情

 

标题:AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning(DII:Yuan Zhou | AACC:语境强化学习中的非对称Actor-Critic)

简介:强化学习(RL)技术在许多具有挑战性的任务中备受关注,但当应用于现实问题时,其性能会显著下降。已经提出了各种方法,例如域随机化,通过在不同的环境设置下训练智能体来处理这种情况,因此可以在部署期间将它们推广到不同的环境。然而,它们通常不包含智能体正确交互的潜在环境因素信息,因此在面对环境变化时可能过于保守。本文首先使用上下文马尔可夫决策过程(CMDP)将RL中适应环境动态变化的任务形式化为一个泛化问题。然后,提出了上下文强化学习中的非对称 Actor-Critic(AACC)作为一种端到端的 Actor-Critic 方法来处理此类泛化任务。最后在一系列模拟环境中通过实验证明了AACC在性能上比现有基线有本质的改进。

论文链接:https://arxiv.org/pdf/2208.02376.pdf

阅读详情

 

标题:Deep VULMAN: A Deep Reinforcement Learning-Enabled Cyber Vulnerability Management Framework(南佛罗里达大学:Soumyadeep Hore | Deep VULMAN:支持深度强化学习的网络漏洞管理框架)

简介:网络漏洞管理是网络安全运营中心(CSOC)的一项关键功能,有助于保护组织免受对其计算机和网络系统的网络攻击。与 CSOC 相比,对手拥有不对称优势,这些系统中的缺陷数量正在以显着更高的速度增加。现有方法是确定性和一次性决策方法,在确定优先级和选择缓解漏洞时不考虑未来的不确定性。此类方法还受到资源次优分配的限制,无法灵活调整对脆弱性到达波动的反应。本文提出了新的框架Deep VULMAN,由深度强化学习代理和整数规划方法组成,以填补网络漏洞管理过程中的这一空白。该顺序决策框架首先确定了在给定系统状态的不确定性下分配用于缓解的接近最优的资源量,然后确定了用于缓解的最佳优先脆弱性实例集。该框架在一年内观察到的模拟和真实世界漏洞数据上,在优先选择重要的组织特定漏洞方面优于当前方法。

论文链接:https://arxiv.org/pdf/2208.02369.pdf

阅读详情

 

标题:Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to Cooperative MARL(牛津大学:Jakub Grudzien Kuba | 异构Agent镜像学习:协作 MARL 的连续解决方案)

简介:智能机器之间合作的必要性已经在人工智能(AI)研究界普及了协作多智能体强化学习(MARL)。然而,许多研究工作都集中在开发实用的 MARL 算法,其有效性仅通过经验研究,因此缺乏理论保证。正如最近的研究所揭示的,MARL 方法通常在奖励单调性方面实现不稳定或收敛时次优的性能。为此,本文介绍了异构智能体镜像学习 (HAML) 的新框架,它为 MARL 算法设计提供了通用模板。并证明了从 HAML 模板派生的算法满足联合奖励的单调改进和收敛到纳什均衡的期望特性。通过证明当前最先进的协作 MARL 算法 HATRPO 和 HAPPO 实际上是 HAML 实例来验证 HAML 的实用性。最后提出了两种著名的 RL 算法 HAA2C(用于 A2C)和 HADDPG(用于 DDPG)的 HAML 扩展,并证明了它们在星际争霸 II 和多智能体 MuJoCo 任务上对强基线的有效性。

论文链接:https://arxiv.org/pdf/2208.01682.pdf

阅读详情

 

标题:Joint Sensing and Communications for Deep Reinforcement Learning-based Beam Management in 6G(渥太华大学:Hao Zhou | 用于6G中基于深度强化学习的波束管理的联合传感和通信)

简介:用户位置是网络管理和控制的关键信息。然而,在某些导致定位错误的环境中,位置不确定性是不可避免的。本文考虑了 mmWave 网络中的用户位置不确定性,并使用基于深度强化学习的波束管理来研究用于未来 6G 网络的联合视觉辅助传感和通信。首先从卫星图像中提取基于像素特征的特征,以提高定位精度。再通过基于 UK-medoids 的具有位置不确定性的用户聚类方法,并将聚类结果用于波束管理。最后,将 DRL 算法应用于波束内无线电资源分配。模拟首先表明,该视觉辅助方法可大大减少定位误差。研究比较基于 K-means 的聚类和基于 DRL 的资源分配 (K-DRL) 和基于 UK-means 的聚类和基于 DRL 的资源分配 (UK--DRL)。该方法比UK-DRL吞吐量提高了17.2%,延迟降低了7.7%,比K-DRI提高了一倍多的吞吐量和55.8%的延迟。

论文链接:https://arxiv.org/pdf/2208.01880.pdf

阅读详情

 

标题:Resilience enhancement of multi-agent reinforcement learning-based demand response against adversarial attacks(浙江大学: Lanting Zeng|基于多智能体强化学习的对抗性攻击需求响应的弹性增强)

简介:随着分布式数字通信技术和先进计量基础设施的大规模部署,多智能体强化学习 (MARL) 等数据驱动方法被广泛用于解决需求响应问题。然而,从网络攻击的角度来看,需求响应管理系统内外的大量数据交互可能会导致严重威胁。本文提出了强大的针对需求响应的对抗性多智能体强化学习框架 (RAMARL-DR),具有增强的对抗性攻击弹性。所提出的 RAMARL-DR 首先构建了一个对抗性智能体,旨在通过制定对抗性攻击来导致最坏情况下的性能;然后采用周期性交替的鲁棒对抗训练场景和最佳对手,旨在减少对抗性攻击引起的严重影响。实证结果表明,当敌手出现时,基于 MARL 的需求响应管理系统很容易受到攻击,并且经过周期性的交替鲁棒对抗训练后,其性能可以得到显著提高。

论文链接:https://www.sciencedirect.com/science/article/pii/S0306261922009850#!

阅读详情

 

标题:Hybrid algorithm based on reinforcement learning for smart inventory management( GIDITIC: Carlos Cuartas|基于强化学习的智能库存管理混合算法)

简介:本文提出了基于强化学习和库存管理方法的混合算法,称为“需求驱动的材料需求计划”(DDMRP) ,以确定购买某种产品的最佳时间,以及需要多少数量。为此,库存管理问题被描述为一个马可夫决策过程,系统与之交互的环境是根据 DDMRP 方法中提出的概念,并通过强化学习算法ーー具体来说,就是 Q-Learning 来设计的。最优策略是决定何时购买以及购买多少。为了确定最优策略,提出了三种奖励函数的求解方法: 第一种是基于库存水平的; 第二种是基于库存到最优水平的距离的优化函数; 第三种是基于库存到最优水平的水平和距离的成形函数。结果表明,该算法在不同特征的情景下具有良好的效果,在需求不连续或连续、季节性和非季节性以及需求高峰等情景下具有良好的性能。

论文链接:https://link.springer.com/content/pdf/10.1007/s10845-022-01982-5.pdf

阅读详情

 

标题:Reinforcement learning for industrial process control: A case study in flatness control in steel industry(阿尔托大学: Jifei Deng|工业过程控制强化学习: 钢铁工业板形控制案例研究)

简介:带钢轧制是一种典型的制造工艺,其中广泛应用了传统的控制方法。控制算法的开发需要通过第一原理或经验模型对过程进行数学表达。然而,由于需要控制工程、机械工程和材料科学的领域知识,因此很难升级传统的控制方法以应对不断变化的要求和环境条件。强化学习是一种机器学习方法,可以使智能体从与环境的交互中学习,从而避免了对上述数学表达式的需要。本文提出了将集成学习与强化学习方法相结合的带钢轧制控制新方法。基于近端策略优化(PPO),提出了一种多参与者PPO。每个随机初始化的 Actor 与环境并行交互,但只有获得最高奖励的 Actor 的经验用于更新 Actor。仿真结果表明,所提出的方法在过程能力和平滑度方面优于传统的控制方法和最先进的强化学习方法。

论文链接:https://www.sciencedirect.com/science/article/pii/S0166361522001452#!

阅读详情

 

标题:A generalized energy management framework for hybrid construction vehicles via model-based reinforcement learning(吉林大学: Wei Zhang|基于模型强化学习的混合动力工程车辆通用能源管理框架)

简介:混合动力工程车辆 (HCV) 具有更具体的任务和高度重复的模式,更适合基于模型的能源管理。然而,工作周期之间的区别会导致对基于模型的能源管理进行推广的不利情景。本文通过基于模型的强化学习框架提出一种通用策略来解决这个问题。广义设计突出三个方面:长期稳定性,自学习能力,状态转换模型重用。为了避免操作周期之间的累积误差,提高学习的长期稳定性,提出了一个带有趋势项的奖励函数。此外,利用高斯过程回归来逼近价值函数,从而减少计算量,提高学习效率。为进一步增强环境模型的可重用性,提出了基于高斯混合模型的建模方法。最后,设计了一个包含离线和在线学习的广义HCV能量管理框架,其中采用预学习模型和近似函数进行重用和动态学习。仿真结果表明,此框架在稳定性、通用性和适应性方面优于传统的基于模型的方法,同时燃料消耗降低了 5.9%。

论文链接:https://www.sciencedirect.com/science/article/pii/S0360544222017522

阅读详情

 

标题:Multi-Objective Pruning of Dense Neural Networks Using Deep Reinforcement Learning(本古里安大学: Lior Hirsch|基于深度强化学习的稠密神经网络多目标剪枝)

简介:网络剪枝旨在降低大型模型的推理成本,并使神经架构能够在手机等终端设备上运行。本文介绍了 NEON,一种使用深度强化学习 (DRL) 的新型迭代修剪方法。虽然大多数基于强化学习的修剪解决方案只分析他们要修剪的一个网络,但本文在大量随机生成的架构上训练 DRL 智能体。为了避免为每个新数据集训练 DRL 模型通常需要长时间运行,在多个数据集上离线训练 NEON,然后将其应用于其他数据集而无需额外训练。这种设置使 NEON 比其他基于 DRL 的修剪方法更有效。此外,提出了一种新颖的奖励功能,使用户能够清楚地定义他们的修剪/性能权衡偏好。通过对一组 28 个不同的数据集进行的评估表明,方法在全连接网络的修剪方面明显优于最近表现最好的解决方案。

论文链接:https://www.sciencedirect.com/science/article/pii/S0020025522008222

阅读详情

 

标题:Multi-agent reinforcement learning for long-term network resource allocation through auction: A V2X application(华为: Jing Tan|通过拍卖实现长期网络资源分配的多智能体强化学习:V2X 应用)

简介:本文将计算任务从一组动态的移动智能体(例如汽车)中卸载,作为自主智能体之间的分散决策。通过设计了交互机制在竞争与合作之间取得平衡,激励这些智能体将个体目标和总体目标保持一致。 在静态情况下,该机制可证明具有最优资源分配的纳什均衡。 在动态环境中,这种机制对完整信息的要求是不可能实现的。 对于这样的环境,本文提出了新颖的多智能体在线学习算法,该算法可以学习部分、延迟和嘈杂的状态信息,从而大大减少信息需求。 算法还能够从具有不同延迟的长期和稀疏的奖励信号中学习。 V2X 应用程序模拟的经验结果证实,通过学习,具有学习算法的智能体显着提高了总体和个体的性能,减少了高达 30% 的卸载失败率、通信开销和负载变化,提高了计算资源的利用率和公平性。 结果也证实了该算法在不同环境下具有良好的收敛性和泛化性。

论文链接:https://www.sciencedirect.com/science/article/pii/S0140366422003000

阅读详情

 

标题:A novel reinforced dynamic graph convolutional network model with data imputation for network-wide traffic flow prediction(浙江大学: Yong Chen|一种新的用于网络范围交通流预测的带数据插补的增强动态图卷积网络模型)

简介:由于不可预测的设备故障、极端天气等原因导致的交通数据丢失问题给交通流量预测建模带来了巨大挑战。本文提出了新的增强型动态图卷积网络模型,用于同时进行数据插补和全网交通流预测。首先,提出了多图卷积融合网络进行数据插补,利用图卷积网络在时间和空间维度上分析交通流检测站之间的交通状态传播规律。二是增强全网流量预测的鲁棒性,提出了基于深度强化学习的动态图学习方法,自适应地生成图邻接矩阵来表示站点之间的动态时空依赖关系。最后,在两个真实世界交通数据集上的实验结果表明,方法优于其他基线方法,并且可以有效地提取站点之间的数据缺失特征和时空依赖特征。图邻接矩阵的可视化结果表明,该方法能够有效识别交通流预测过程中影响较大的交通站点,提取的站点间依赖关系具有可解释性。

论文链接:https://www.sciencedirect.com/science/article/pii/S0968090X22002431

阅读详情

 

开源算法

标题:利物浦大学:Tudor Jianu | CathSim:一个用于自主插管的开源模拟器

简介:血管内手术中的自主机器人有可能安全可靠地导航循环系统,同时降低对人为错误的敏感性。然而,在训练此类机器人的过程中存在许多挑战,例如由于机器学习算法的样本效率低下导致的训练时间长以及导管与血管内模型之间的相互作用引起的安全问题。物理模拟器已用于血管内手术,但通常用于员工培训,通常不符合自主插管目标。此外,当前大多数模拟器都是闭源的,这阻碍了安全可靠的自主系统的协作开发。本文介绍了 CathSim开源模拟环境,可加速自主血管内导航机器学习算法的开发。其首先使用最先进的血管内机器人模拟高保真导管和主动脉。然后,在模拟环境中提供导管和主动脉之间的实时力传感能力。并使用近端策略优化 (PPO) 和软演员-评论家 (SAC)算法,通过在两条主要动脉内执行两项不同的导管插入任务来验证该模拟器。实验结果表明,使用此开源模拟器,可成功地训练强化学习智能体执行不同的自主插管任务。

论文链接:https://arxiv.org/pdf/2208.01455.pdf

阅读详情

如果你正在从事或关注强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

 

学习前沿知识、求解疑难困惑

分享经验心得、展示风貌才华

参与专属活动、结识研究伙伴

 

请扫描下方二维码加入。