
关于周刊:
强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第46期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及新数据集,以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:(李明,刘青、小胖)
关于周刊订阅:
告诉大家一个好消息,《强化学习周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:
1,注册智源社区账号
2,点击周刊界面左上角的作者栏部分“强化学习周刊”(如下图),进入“强化学习周刊”主页。
3,点击“关注TA”(如下图)

4,您已经完成《强化学习周刊》订阅啦,以后智源社区会自动向您推送最新版的《强化学习周刊》!
背景
强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如多智能体深度强化学习应用于自动驾驶、离线及分布式强化学习、深度强化学习探索、多智能体协作强化学习相关的理论及其最新应用等。
论文推荐
本次推荐了14篇强化学习领域的最新论文,我们介绍了基于MDRL的频谱效率优化方法以提高频谱效率、通过学习LDSA框架显著提高星际争霸 II 微观管理基准的学习性能、首个动态机制设计的离线 RL 算法及将ActorRL框架应用于自动交叉路口管理以克服多智能体 DRL 中维数灾难和不稳定性的挑战,并且推荐了NROWAN-DQN提高噪声对强化学习的有效探索等,最后,本文介绍了一篇深度强化学习探索研究综述以解决稀疏奖励问题。
标题:Multi-Agent Deep Reinforcement Learning in Vehicular OCC(埃塞克斯大学:Amirul Islam | 车载OCC中的多智能体深度强化学习)
简介:光学摄像头通信 (OCC) 已成为未来自动驾驶汽车无缝运行的关键支持技术。本文介绍了车辆控制中心的频谱效率优化方法。具体来说,别问我的目标是在考虑误码率和延迟约束的同时优化调制阶数和相对速度。由于优化问题是 NP-hard 问题,通过将优化问题建模为马尔可夫决策过程 (MDP),以便使用可以在线应用的解决方案。然后采用拉格朗日松弛法对约束问题进行松弛,然后采用多智能体深度强化学习(DRL)进行求解。通过大量仿真验证了所提出的方案的性能,并将其与本文提出的方法和随机方法的各种变体进行了比较。研究结果表明,与比较方案相比,该系统显著地提高了总频谱效率。
论文链接:https://arxiv.org/pdf/2205.02672.pdf
阅读详情
标题:LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning(中科大:Mingyu Yang | LDSA:多智能体协作强化学习中的动态子任务分配)
简介:协同多智能体强化学习(MARL)近年来取得了显着进展。为了训练效率和可扩展性,大多数 MARL 算法使所有代理共享相同的策略或价值网络。为了平衡训练的复杂性和代理行为的多样性,本文提出了一种新的框架来学习协作 MARL 中的动态子任务分配 (LDSA)。即通过一个子任务编码器,它根据每个子任务的身份为每个子任务构建一个向量表示。为了合理地将智能体分配给不同的子任务,提出了一种基于能力的子任务选择策略,可以动态地将具有相似能力的智能体分组到同一个子任务中。然后根据其表示来调节子任务策略,处理相同子任务的智能体分享其经验来训练子任务策略。进一步引入了两个正则化器来增加子任务之间的表示差异,并避免代理频繁更改子任务以分别稳定训练。实证结果表明,LDSA 学习了合理有效的子任务分配,以实现更好的协作,并显着提高了具有挑战性的星际争霸 II 微观管理基准的学习性能。
论文链接:https://arxiv.org/pdf/2205.02561.pdf
阅读详情
标题:Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline Reinforcement Learning(芝加哥大学:Boxiang Lyu | 悲观与VCG:通过离线强化学习学习动态机制设计)
简介:近年来,动态机制设计引起了计算机科学家和经济学家的极大关注。通过允许智能体与卖方进行多轮交互,其中智能体的奖励函数可能随时间变化并且依赖于状态,该框架能够对丰富的现实世界问题进行建模。智能体和卖家之间的交互通常被假设遵循马尔可夫决策过程(MDP)。本文专注于这种 MDP 的奖励和转换函数是先验未知的设置,通过正在尝试使用先验收集的数据集来恢复最佳机制。在使用函数逼近来处理大型状态空间的设置中,对函数类的表达能力只有轻微的假设,以能够使用离线强化学习算法设计动态机制。此外,学习机制大致具有三个关键要求:效率、个体理性和真实性。该算法基于悲观原则,只需要对离线数据集的覆盖范围进行温和假设。本研究为动态机制设计提供了首个离线 RL 算法,而无需假设均匀覆盖。
论文链接:https://arxiv.org/pdf/2205.02450.pdf
阅读详情
标题:ActorRL: A Novel Distributed Reinforcement Learning for Autonomous Intersection Management(清华大学吴建平教授团队 | ActorRL:一种用于自主交叉口管理的新型分布式强化学习)
简介:作为未来交通的新兴趋势,网联自动驾驶汽车(CAV)具有提高十字路口通行能力和安全性的潜力。在自动交叉口管理(AIM)中,分布式调度算法将交通参与者之间的交互表述为具有信息交换和行为合作的多智能体问题。深度强化学习 (DRL) 作为一种在许多领域获得令人满意的性能的方法,最近已被引入 AIM。为了克服多智能体 DRL 中维数灾难和不稳定性的挑战,本文提出了新的 AIM 问题 DRL 框架 ActorRL,其中actor分配机制在全局观察下将具有不同个性的多个角色附加到 CAV,包括激进的actor、保守的actor,安全第一的actor等。actor与分配给它的 CAV 的集体记忆共享行为策略,在 AIM 中扮演“导航员”的角色。在实验中,通过将所提出的方法与几种广泛使用的调度方法和没有参与者分配的分布式 DRL 进行了比较,结果表明,该方法比基准测试具有更好的性能。
论文链接:https://arxiv.org/pdf/2205.02428.pdf
阅读详情
标题:Reinforcement Learning Algorithm for Mixed Mean Field Control Games(加州大学:Jean-Pierre Fouque | 混合平均场控制博弈的强化学习算法)
简介:本文提出了一个新的组合平均场控制博弈 (MFCG) 问题,该问题可以解释为协作组之间的竞争博弈,其解决方案是组之间的纳什均衡。在每个组内,玩家协调他们的策略。这种情况的一个例子是对经典交易者问题的修改。交易者群体最大化他们的财富。其面临着自己交易的交易成本和自己终端头寸的成本。此外,还面临集团内平均持股的成本。资产价格受所有代理交易的影响。并提出了一种强化学习算法来近似解决这种混合平均场控制博弈问题。并在具有分析解决方案的基准线性二次规范上测试了该算法。
论文链接:https://arxiv.org/pdf/2205.02330.pdf
阅读详情
标题:A Temporal-Pattern Backdoor Attack to Deep Reinforcement Learning(西北工业大学:刘家佳教授团队 | 深度强化学习的时间模式后门攻击)
简介:深度强化学习 (DRL) 在许多实际应用中取得了显着成就。但由于遮挡和嘈杂的传感器,这些现实世界的应用程序通常只能为做出决策提供部分观察结果。但是,部分状态可观察性可用于隐藏后门的恶意行为。本文探索了 DRL 的序列性质,并提出了一种新的 DRL 时间模式后门攻击,其触发是一组对一系列观察而不是单个观察的时间约束,并且效果可以保持在一个可控的范围内。持续时间而不是瞬间。使用云计算中的一个典型作业调度任务验证了所提出的后门攻击。大量实验结果表明,该方法可以实现出色的有效性、隐蔽性和可持续性。并且平均干净数据准确率和攻击成功率分别可达97.8%和97.5%。
论文链接:https://arxiv.org/pdf/2205.02589.pdf
阅读详情
标题:The AI Economist: Taxation policy design via two-level deep multiagent reinforcement learning(Salesforce研究团队| AI Economist:通过两级深度多智能体强化学习设计税收策略)
简介:人工智能 (AI) 和强化学习 (RL) 改善了许多领域,但尚未在经济策略设计、机制设计或整个经济学中广泛采用。AI Economist 是一个用于策略设计的两级深度 RL 框架,其中智能体和社会规划师协同适应。特别是,AI Economist 使用结构化课程学习来稳定具有挑战性的两级、自适应学习问题。本文在税收领域验证了这个框架。在一步式经济中,AI Economist 恢复了经济理论的最优税收策略。在时空经济中,AI Economist大大改善了功利主义社会福利以及在基线上的平等和生产力之间的权衡。实验结果表明,两级深度强化学习补充了经济理论,并开启了一种基于人工智能的方法来设计和理解经济策略。
论文链接:https://www.science.org/doi/epdf/10.1126/sciadv.abk2607
阅读详情
标题:Sampling diversity driven exploration with state difference guidance(吉林大学:Jiayi Lu|具有状态差异指导的采样多样性驱动探索)
简介:探索是深度强化学习的关键问题之一,尤其是在具有稀疏或欺骗性奖励的环境中。基于内在奖励的探索可以处理这些环境。然而,这些方法不能同时考虑全局交互动态和局部环境变化。本文提出了新的离线策略学习的内在奖励,它不仅鼓励智能体采取从全局角度未完全学习的动作,而且还指示智能体从局部角度触发环境的显著变化。同时提出了double-actors-double-critics的框架,将内在奖励与外在奖励结合起来,以避免以前方法中内在和外在奖励的不恰当组合。该框架可以应用于基于actor-critic方法的离线学习算法。实验结果表明,该方法可以在具有密集、欺骗和稀疏奖励的环境中进行有效的探索。并验证了此网络框架的优越性和合理性。
论文链接:https://www.sciencedirect.com/science/article/pii/S0957417422007588
阅读详情
标题:NROWAN-DQN: A stable noisy network with noise reduction and online weight adjustment for exploration(吉林大学:Shuai Han|NROWAN-DQN:具有降噪和在线权重调整的稳定噪声网络应用于探索)
简介:噪声对于强化学习探索至关重要。适当的噪声不仅可以避免由于缺乏探索而导致的局部最优解,还可以防止过度扰动导致的学习不稳定。具有噪声的网络可以为强化学习带来更有效的探索。它们使智能体能够在训练开始时更随机地采取行动,并倾向于使智能体在随后的学习中产生稳定的输出。但这种趋势并不总能为智能体找到稳定的策略,因此效率和稳定性较低。针对此问题,本文提出了NROWAN-DQN,即降噪和在线权重调整NoisyNet-DQN。首先,为 NoisyNet-DQN 开发了一种新颖的噪声正则化方法,以减少输出层的噪声。其次,设计了一种用于降噪的在线权重调整策略。最后,在四个标准领域评估该算法并分析超参数的属性。实验结果表明,NROWAN-DQN 在所有这些领域都优于先前的算法。
论文链接:https://www.sciencedirect.com/sdfe/reader/pii/S0957417422006996/pdf
阅读详情
标题:Data-driven optimal tracking control for SMA actuated systems with prescribed performance via reinforcement learning(东南大学:Hongshuai Liu|通过强化学习对具有规定性能的 SMA 驱动系统进行数据驱动的最优跟踪控制)
简介:本文解决了模型知识完全未知的形状记忆合金 (SMA) 驱动系统的数据驱动性能规定的连续时间最优跟踪控制问题。首先,通过规定性能控制(PPC)方法将误差约束问题转化为无约束误差跟踪问题。然后,通过建立无约束的增强系统对最优跟踪控制问题(OTCP)进行预处理。此外,OTCP 的 Hamilton-Jacobi-Bellman 方程 (HJBE) 通过利用强化学习 (RL) 迭代求解,而无需 SMA 执行器模型信息要求。RL 的价值函数和执行策略由两个神经网络近似,分别充当actor和critic,并且基于 actor-critic 的 RL 是使用最小二乘法实现的。此外,Lyapunov 方法确保了 SMA 驱动的闭环系统的稳定性,以及用户指定的误差收敛速度、超调量和跟踪精度等误差约束。最后,实验结果和比较说明了所提方法的有效性。
论文链接:https://www.sciencedirect.com/sdfe/reader/pii/S0888327022003466/pdf
阅读详情
标题:A reinforcement learning based artificial bee colony algorithm with application in robot path planning(里尔中央理工: Yibing Cui|基于强化学习的人工蜂群算法在机器人路径规划中的应用)
简介:人工蜂群(ABC)算法是一种流行的优化算法,具有出色的探索能力和广泛的应用。然而,它的有效性受到一维搜索策略的限制。因此,为了提高其性能,本文提出了一种基于强化学习(RL)的ABC算法(命名为ABC_RL)。在ABC_RL中,所采用的蜜蜂相位的搜索方程中要更新的维数是通过RL智能改变和调整的。此外,采用了两种改进的搜索策略来保持多样化和集约化之间的良好平衡。通过对 CEC 2017 基准问题进行的一系列比较来评估 ABC_RL 的性能。结果表明,考虑到解决方案的准确性,ABC_RL 优于比较的 ABC 变体。此外,本文通过一个机器人路径规划问题进一步检验 ABC_RL 的有效性。比较结果显示了ABC_RL在路径长度和运行时间方面的优势。
论文链接:https://www.sciencedirect.com/science/article/pii/S0957417422007333
阅读详情
标题:Automatic Collective Motion Tuning Using Actor-Critic Deep Reinforcement Learning(新南威尔士大学: Shadi Abpeikar|使用 Actor-Critic 深度强化学习的自动集体运动调整)
简介:集体行为,如自主智能体的群体形成,提供了高效移动、冗余的优势,以及人类引导单个群体生物体的潜力。然而,很难调整一组智能体的行为,使其群集。行为引导算法允许智能体根据其物理形式和相关的运动约束自我调整行为。本文提出了强化学习框架,从随机行为中调整集体运动行为。学习过程由一个新的奖励函数来指导,该函数能够从传感器数据中自动检测到关于相邻智能体的相对速度和位置的一般集体运动行为。奖励函数是使用在人类标记的集体运动数据集上训练的元学习设计的。该强化学习器可以调整随机移动群体的行为,从而产生结构化的集体运动。通过与现有的发展进化框架比较表明,此学习框架可以更快地生成具有不同集体运动特征的行为。此外,经过训练的强化学习器可以调整机器人的行为,使其具有未经训练的运动特征。
论文链接:https://www.sciencedirect.com/science/article/pii/S2210650222000554
阅读详情
标题:A reinforcement learning based RMOEA/D for bi-objective fuzzy flexible job shop scheduling(中国地质大学: Rui Li|基于强化学习的 RMOEA/D 双目标模糊柔性作业车间调度)
简介:柔性作业车间调度问题 (FJSP) 对于现实制造具有重要意义。然而,在制造过程中,作业处理时间通常是不确定和多变的。本文提出了一种以模糊处理时间 (MOFFJSP) 为目标的多目标 FJSP,用于优化制造时间和总机器工作量。针对 MOFFJSP 问题,提出了一种基于强化学习的 MOEA/D,名为 RMOEA/D。RMOEA/D 可以表现为: i) 使用具有三个规则的初始策略来获得高质量的初始种群;ii) 提出了一种基于 Q-learning 的参数自适应策略来引导种群选择最佳参数以增加多样性;iii)基于强化学习的可变邻域搜索旨在引导解决方案选择正确的局部搜索方法;iv)精英档案用于提高废弃历史解的使用率。实验结果表明 RMOEA/D 优于当前最先进的五种算法。
论文链接:https://www.sciencedirect.com/science/article/pii/S0957417422007291
阅读详情
标题:Cognitive Radio Resource Scheduling using Multi agent QLearning for LTE(新墨西哥大学: Najem N Sirhan|基于多智能体QLearning的LTE认知无线电资源调度)
简介:本文中,作者提出、实现并测试了两种新的下行链路LTE调度算法。这些算法的实现和测试基于调度两类用户的Qlearning技术。第一种称为协作调度算法,第二种称为竞争调度算法。第一类计划用户是主要用户,他们是为其服务付费的授权订户。第二类计划用户是二级用户,他们可能是未经许可的用户,不为他们的服务、设备到设备的通信或传感器付费。每个用户(无论是主用户还是辅助用户)都被视为智能体。在协作调度算法中,主要用户智能体将协作,以便就如何将资源块分配给它们中的每一个做出联合调度决策,然后次要用户智能体将相互竞争以使用剩余的资源块。在竞争调度算法中,主用户智能体之间将竞争可用资源,然后次用户智能体之间将竞争剩余资源。实验结果表明,两种调度算法都收敛到了频谱利用率的近90%,并在用户之间提供了公平的频谱份额。
论文链接:https://arxiv.org/ftp/arxiv/papers/2205/2205.02765.pdf
阅读详情
研究综述
标题:UNIST: Hyondong Oh | 深度强化学习探索:综述
简介:本文综述了深度强化学习中的探索技术。在解决稀疏奖励问题时,探索技术是最重要的。在稀疏奖励问题中,奖励很少,这意味着代理通常不会通过随机行为找到奖励。在这种情况下,学习奖励和行动关联对强化学习来说是一个挑战。因此,需要设计更复杂的探索方法。本综述全面概述了现有的探索方法,根据主要贡献将其分类如下:奖励新状态、奖励不同行为、基于目标的方法、概率方法、基于模仿的方法、安全勘探和基于随机的方法。然后,讨论了尚未解决的挑战,以提供有价值的未来研究方向。最后,从复杂性、计算量和总体性能方面对不同类别的方法进行了比较。
论文链接:https://arxiv.org/pdf/2205.00824.pdf
阅读详情
如果你正在从事或关注强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
请扫描下方二维码加入。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢