
关于周刊:
强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第43期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及新工具,以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:(李明,刘青、小胖)
关于周刊订阅:
告诉大家一个好消息,《强化学习周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:
方式一:
扫描下面二维码,进入《强化学习周刊》主页,选择“关注TA”。
方式二:
1,注册智源社区账号
2,点击周刊界面左上角的作者栏部分“强化学习周刊”(如下图),进入“强化学习周刊”主页。
3,点击“关注TA”(如下图)

4,您已经完成《强化学习周刊》订阅啦,以后智源社区会自动向您推送最新版的《强化学习周刊》!
背景
强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如多智能体分布式强化学习、基于深度强化学习的机器人应用、非线性多目标深度强化学习相关的理论及其最新应用等。
论文推荐
本次推荐了15篇强化学习领域的相关论文,主要涉及于基于强化学习的历史表征时间对齐、基于深度强化学习的服务水平协议保证软硬混合切片框架。分散式卸载决策的多智能体分布式强化学习、混合LMC:基于集成深度强化学习的轮式仿人机器人混合学习与模型控制、快速启动强化学习、基于示例重置的强化学习自动化、基于阶段性策略梯度强化学习的时隙信道跳频 (TSCH) 网络中的资源分配等
标题:Temporal Alignment for History Representation in Reinforcement Learning(基于强化学习的历史表征时间对齐)
简介:强化学习中的环境通常只能部分观察到。为了解决这个问题,一个可能的解决方案是向智能体提供有关过去的信息。然而,提供对许多步骤的完整观察可能是多余的。受人类记忆的启发,本文建议只通过环境中的重要变化来表现历史,并且在该方法中,通过自监督自动获得这种表现。(TempAl)方法将时间上紧密的帧对齐,揭示了环境的一般、缓慢变化的状态。这一过程基于对比损失,它将附近观测值的嵌入相互拉离,同时将其他样本从批次中推离。它可以被解释为一个度量,捕捉观测的时间关系。我们建议结合常见的瞬时和历史表现,并在街机学习环境中评估所有可用的Atari游戏的TempAl。TempAl在49种环境中的35种环境中超过了瞬时唯一基准。
论文链接:https://arxiv.org/pdf/2204.03525.pdf
阅读详情
标题:A Hard and Soft Hybrid Slicing Framework for Service Level Agreement Guarantee via Deep Reinforcement Learning(基于深度强化学习的服务水平协议保证软硬混合切片框架)
简介:网络切片是保证5G和未来网络中各种服务水平协议(SLA)的关键驱动因素。近年来,深度强化学习(DRL)被广泛用于网络切片中的资源分配。然而,现有的相关工作不考虑与DRL的初始探索阶段相关的性能损失。本文提出了一种新的性能保证切片策略,采用软硬件混合切片设置。在训练神经网络时,主要采用一种通用的切片设置来保证切片的二语习得。此外,通过DRL的训练,公共切片的资源趋向于精确地重新分配到切片,直到其收敛。此外,实验结果证实了我们提出的切片框架的有效性:可以保证训练阶段切片的SLA,并且所提出的算法在SLA满足率、隔离度和收敛后的频谱最大化方面可以达到接近最优的性能。
论文链接:https://arxiv.org/pdf/2204.03502.pdf
阅读详情
标题:Multi-Agent Distributed Reinforcement Learning for Making Decentralized Offloading Decisions(分散式卸载决策的多智能体分布式强化学习)
简介:本文将计算卸载描述为一个具有自主智能体的分散决策问题。其设计了一种互动机制,通过平衡竞争与合作,激励智能体调整私有目标和系统目标。该机制在静态情况下具有纳什均衡和最优资源分配。对于动态环境,提出了一种新颖的多智能体在线学习算法,该算法使用部分、延迟和噪声状态信息进行学习,并使用奖励信号在很大程度上减少信息需求。实证结果证实,通过学习,智能体显着提高了系统和个人的性能,例如,卸载失败率降低40%,通信开销降低32%,在低竞争下节省高达 38% 的计算资源,随着高争用负载变化的减少和公平性的提高,利用率提高了 18%。实验结果也证实了该算法在明显不同的环境下具有良好的收敛性和泛化性能。
论文链接:https://arxiv.org/pdf/2204.02267.pdf
阅读详情
标题:Hybrid LMC: Hybrid Learning and Model-based Control for Wheeled Humanoid Robot via Ensemble Deep Reinforcement Learning(混合LMC:基于集成深度强化学习的轮式仿人机器人混合学习与模型控制)
简介:由于机器人的非线性动力学和欠驱动特性,轮式仿人机器人的运动控制是一个具有挑战性的问题。这些方法通常受到所用基础模型的保真度、控制器的选择和所考虑的环境变量(地表类型、地面倾角等)的限制。强化学习(RL)的最新进展为解决传统反馈控制器问题提供了有希望的方法,但需要大量交互数据才能学习。本文提出了一种混合学习和基于模型的控制器混合LMC,它结合了经典线性二次调节器(LQR)和集成深度强化学习的优点。集成深度强化学习是由多个软参与者批评(SAC)组成,用于减少RL网络的方差。通过串联使用反馈控制器,网络在训练的早期阶段表现出稳定的性能。作为初步步骤,其探索了混合LMC在MuJoCo模拟器中通过一组不同的物理参数控制仿人机器人的轮式运动的可行性。研究结果表明,与其他现有技术相比,混合LMC实现了更好的性能,并提高了采样效率。
论文链接:https://arxiv.org/pdf/2204.03159.pdf
阅读详情
标题:Jump-Start Reinforcement Learning( 快速启动强化学习)
简介:强化学习(RL)提供了一个理论框架,通过通过反复试验持续改进智能体的行为。然而,从零开始有效地学习策略可能非常困难,尤其是对于具有探索挑战的任务。其可能需要使用现有策略、离线数据或演示来初始化RL。在RL中仅执行此类初始化通常效果不佳,尤其是对于基于值的方法。本文提出了一种元算法,它使用离线数据、演示或预先存在的策略来初始化RL策略,并且与任何RL方法兼容。并提出了 Jump-Start Reinforcement Learning(JSRL),通过使用两种策略来解决任务的算法:引导策略和探索策略。使用向导策略形成探索策略的起始状态课程,其有效地提高一组模拟机器人任务的性能。实验证明,JSRL能够显著优于现有的模仿和强化学习算法,尤其是在小数据区域。本文还提供了 JSRL 样本复杂度的上限,并证明了在引导策略的帮助下,可以将非乐观探索方法的样本复杂度从水平指数提高到多项式。
论文链接:https://arxiv.org/pdf/2204.02372.pdf
阅读详情
标题:Automating Reinforcement Learning with Example-based Resets(基于示例重置的强化学习自动化)
简介:深度强化学习使机器人能够从环境交互中学习运动技能,而无需任何先验知识。重置机制虽然对于模拟任务来说微不足道,但对于提供现实世界的机器人任务来说可能具有挑战性。机器人系统中的重置通常需要广泛的人工监督和特定任务的变通办法,这与自主机器人学习的目标相矛盾。本文通过引入额外的智能体来学习以自监督的方式进行重置,从而将传统的强化学习扩展到更大的自主性。重置智能体抢先触发重置以防止手动重置,并隐含地为前向代理强加课程。应用该方法从零开始学习一套模拟和现实世界的连续控制任务,并证明重置代理成功地学会了减少手动重置,同时还允许前向策略随着时间的推移逐渐改进。
论文链接:https://arxiv.org/pdf/2204.02041v2.pdf
阅读详情
标题:Resource Allocation in Time Slotted Channel Hopping (TSCH) networks based on phasic policy gradient reinforcement learning(基于阶段性策略梯度强化学习的时隙信道跳频 (TSCH) 网络中的资源分配)
简介:工业物联网 (IIoT) 的概念因其低成本解决方案和提高制造过程的生产力而日益受到重视。为了满足 IIoT 网络的超高可靠性和超低功耗通信要求,IEEE 802.15.4e 标准中引入了时隙信道跳频 (TSCH) 行为模式。由于资源有限和动态拓扑,在 IIoT 网络中调度数据包传输是一项艰巨的任务。本文提出了一种基于阶段性策略梯度(PPG)的 TSCH 调度学习算法。其考虑 TSCH 网络的吞吐量和能源效率的效用函数。本文所提出的基于 PPG 的调度算法克服了完全分布式和完全集中的基于深度强化学习的调度算法的缺点,采用了actor-critic 策略梯度方法,该方法分两个阶段学习调度算法,即策略阶段和辅助阶段。
论文链接:https://www.sciencedirect.com/science/article/pii/S2542660522000257#!
阅读详情
标题:Sparse Black-Box Video Attack with Reinforcement Learning(基于强化学习的稀疏黑盒视频攻击)
简介:最近已经探索了对视频识别模型的对抗性攻击。然而,大多数现有研究平等地对待每个视频帧并忽略它们的时间交互。为此,一些方法尝试选择一些关键帧,然后基于它们进行攻击。然而,他们的选择策略独立于攻击步骤,因此产生的性能是有限的。相反,本文认为帧选择阶段与攻击阶段密切相关。关键帧应根据攻击结果进行调整。为此,本文将黑盒视频攻击制定为强化学习 (RL) 框架。具体而言,将RL中的环境设置为识别模型,RL中的智能体起到选框的作用。通过不断查询识别模型并接收攻击反馈,智能体逐渐调整其帧选择策略,对抗性扰动变得越来越小。结果表明,所提出的方法可以通过有效的查询时间显著减少对抗性扰动。
论文链接:https://link.springer.com/content/pdf/10.1007/s11263-022-01604-w.pdf
阅读详情
标题:Using the proximal policy optimisation algorithm for solving the stochastic capacitated lot sizing problem(采用近似策略优化算法求解随机容量限制批量问题)
简介:本文研究了具有固定需求的多品种随机产能约束批量问题,以最小化建立、持有和延期订单成本。这是业内常见的问题,涉及库存管理和生产计划。本文研究了一种深度强化学习(DRL)——近端策略优化(PPO)算法在这个问题中的适用性。该问题被建模为马尔可夫决策过程(MDP),在小问题的情况下,它可以通过动态规划求解最优性。研究表明PPO的性能接近最优解。对于产品数量不断增加的更大问题实例,求解最优是很难的,本文证明了PPO解决方案优于基准解决方案。对标准PPO算法进行了几次调整,使其更易于扩展到更大的问题实例。本文展示了算法计算时间的线性增长,并给出了一种解释算法结果的方法。
论文链接:https://www.tandfonline.com/doi/epub/10.1080/00207543.2022.2056540?needAccess=true
阅读详情
标题:Modified Q-learning with distance metric and virtual target on path planning of mobile robot(基于距离度量和虚拟目标的改进Q-Learning在移动机器人路径规划中的应用)
简介:路径规划是移动机器人导航的基本要素。Q-learning 是一种流行的强化学习路径规划方法,能够在很少或根本没有环境知识的情况下进行学习。尽管在许多研究中报告了 Q-learning 的成功应用,但其与维数灾难相关的缓慢收敛可能会限制实践中的性能。为此,本研究引入了一种经过三个修改的改进 Q-learning (IQL)。首先,将距离度量添加到 Q-learning 中,以引导智能体向目标移动。其次,修改了 Q-learning 的 Q 函数,以更有效地克服死胡同。最后,在 Q-learning 中引入了虚拟目标概念来绕过死胡同。二十种导航地图的实验结果表明,与 Q-learning 相比,所提出的策略加快了学习速度。
论文链接:https://www.sciencedirect.com/science/article/pii/S0957417422005784
阅读详情
标题:Addressing domain shift in neural machine translation via reinforcement learning(通过强化学习解决神经机器翻译中的域转移)
简介:域适应 (DA) 一直是神经机器翻译 (NMT) 任务中使用的著名迁移学习算法。在训练数据中添加与领域相关的语料库来训练模型可以提高 NMT 的性能。许多低资源语言对,如印地语-尼泊尔语和西班牙语-葡萄牙语,没有足够的并行数据来训练模型,面临域内数据稀缺问题。域内训练数据的不可用导致在训练模型时使用不相关的语料库,这会降低 NMT 性能。训练和测试数据之间的这种域不匹配会导致域移位问题。本文提出基于强化的句子选择和加权 (RSSW) 方法,它从域外数据中选择伪域内句子,并基于强化学习学习它们的权重。该方法通过将源语言和目标语言编码为用于语言模型训练的通用编码脚本来利用语言对之间的相似性。RSSW 使用最小风险训练和最大似然估计作为目标函数,在选定的伪域内句子上训练 NMT。
论文链接:https://www.sciencedirect.com/science/article/pii/S0957417422004547/pdfft?md5=711467a39e44b1688d178b3edb7c0e69&pid=1-s2.0-S0957417422004547-main.pdf
阅读详情
标题:gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement Learning Approach(gTLO:一种广义的非线性多目标深度强化学习方法)
简介:在现实决策优化中,通常必须考虑多个相互竞争的目标。在多策略 MORL 的情况下,针对冲突目标的各种偏好的决策策略集被优化。虽然基于线性标量化扩展 MORL 的单目标强化学习方法很简单,但这些方法可达到的解决方案仅限于 Pareto 前沿的凸区域。 非线性 MORL 方法(如阈值词典排序 (TLO))旨在克服这一限制。广义 MORL 方法利用函数逼近来泛化目标偏好,从而以数据有效的方式隐式学习多个策略。本文提出了广义阈值词典排序 (gTLO),这是一种旨在将非线性 MORL 与广义 MORL 的优点相结合的新方法。文中介绍了该算法的深度强化学习实现,并在非线性 MORL 的标准基准和制造过程控制领域的实际应用中展示了有希望的结果。
论文链接:https://arxiv.org/pdf/2204.04988.pdf
阅读详情
标题:MULTI-OBJECTIVE EVOLUTION FOR GENERALIZABLE POLICY GRADIENT ALGORITHMS(可泛化策略梯度的多目标演化算法)
简介:性能、通用性和稳定性是强化学习 (RL) 的三个挑战,当同时处理多个RL目标时,最先进的RL算法仍然存在不足,并且当前的人为驱动的设计实践可能不适合多目标 RL。本文提出了一种进化方法MetaPG,可以发现遵循多目标搜索标准、以图表示的新RL算法,其中不同的RL目标被编码在单独的适应度分数中。当使用基于图的 Soft Actor-Critic (SAC) 实现来初始化总体时,本文的方法能够找到将 SAC 的性能和泛化性分别提高 3% 和 17% 的新算法,并且使不稳定性降低 65%。此外,我们还分析了总体中最佳算法的图形结构,并提供了特定元素的解释,这些元素有助于以性能换取可推广性,反之亦然。在RWRL Cartpole等三个不同的连续控制任务中进行了验证。
论文链接:https://arxiv.org/pdf/2204.04292.pdf
阅读详情
标题:Sim-to-Real Learning for Bipedal Locomotion Under Unsensed Dynamic Loads(无感知动态负载下双足运动的模拟到真实学习)
简介:最近关于双足运动模拟真实学习的研究表明,在各种地形上,它的鲁棒性和灵活性都达到了新的水平。然而,现有研究的两足运动工作,都没有考虑在各种外部载荷下的运动,这些载荷会显著影响整个系统动力学。在许多应用中,机器人需要在各种潜在的动态负载下保持稳健的运动,比如搬运装有液体的容器,理想情况下不需要额外的负载感应能力。本文探索了强化学习(RL)的能力,以及在动态负载下仅使用本体感觉反馈的双足运动的模拟到真实转换。证明了之前为空载运动训练的RL策略对于某些负载是失败的,并且简单地在负载环境中训练就足以产生成功的和改进的策略。本文还比较了针对每个负荷的专门训练策略与针对所有考虑的负荷的单一策略,并分析了产生的步态如何变化以适应不同的负荷。
论文链接:https://arxiv.org/pdf/2204.04340.pdf
阅读详情
标题:Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning(通过决策时间规划从演示中稳健地学习)
简介:模仿学习的目标是模仿演示中的专家行为,而无需获得明确的奖励信号。现有方法通过逆强化学习(IRL)推断(未知)奖励函数,然后通过强化学习(RL)最大化该奖励函数。 然而,此类方法学习的策略在实践中非常脆弱,即使由于复合错误而导致测试时间的小扰动也会迅速恶化。 本文提出了在测试时进行规划的模仿算法 (IMPLANT),其为用于模仿学习的算法,它利用决策时间规划来纠正任何基本模仿策略的复合错误。与现有方法相比,在决策时保留了模仿策略和奖励模型,从而受益于这两个部分的学习信号。 本文证明 IMPLANT 在标准控制环境中显着优于基准模仿学习方法,并且在受到测试时间动态中具有挑战性的扰动时,在零样本泛化方面表现出色。
论文链接:https://arxiv.org/pdf/2204.03597.pdf
阅读详情
研究综述
标题:新加坡国立大学(NUS)| 机器人团队的分布式强化学习:综述
简介:综述目的:传感、驱动和计算方面的最新进展为由成百上千个机器人组成的多机器人系统打开了大门,在自动化制造、救灾、收获、最后一英里运送、港口/机场运营或搜索和救援方面有着广阔的应用前景。该社区利用无模型多智能体强化学习(MARL)为多机器人系统(MRS)设计高效、可扩展的控制器。本文旨在分析分布式MARL在多机器人协作中的应用现状。最新发现:去中心化MRS面临着根本性的挑战,例如非平稳性和部分可观测性。在“集中培训、分散执行”范式的基础上,最近的MARL方法包括独立学习、集中批评、价值分解和交流学习方法。通过人工智能基准测试和基本的现实机器人能力(如多机器人运动/路径规划)展示合作行为。总结:该综述报告了多机器人合作的分散式无模型MARL和现有方法的挑战。介绍了基准测试和机器人应用,并讨论了当前开放的研究途径。
论文链接:https://arxiv.org/pdf/2204.03516.pdf
阅读详情
如果你正在从事或关注强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
请扫描下方二维码加入强化学习群(备注:“姓名+单位+强化学习”才会验证进群哦)

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢