关于周刊:
关于周刊订阅:
告诉大家一个好消息,《强化学习周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:
1,注册智源社区账号
2,点击周刊界面左上角的作者栏部分“强化学习周刊”(如下图),进入“强化学习周刊”主页。
3,点击“关注TA”(如下图)
4,您已经完成《强化学习周刊》订阅啦,以后智源社区会自动向您推送最新版的《强化学习周刊》!
导语:
强化学习作为人工智能领域研究热点之一,其在人工智能领域以及学科交叉研究中的突出表现,引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯,智源社区结合以前工作基础及读者反馈,在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块,撰写为第77期《强化学习周刊》以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:(李明,刘青、小胖)
导读
强化学习已经成为人工智能研究领域的热点,其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块,论文推荐板块为读者梳理了分层强化学习最近研究成果中的中12篇有关研究论文;另外科研咨询板块为读者分享DeepMind提出UFLP,实现样本高效率,在每次数据收集迭代中,元算法都有一定的概率将环境重置为具有高度不确定性的观察状态,而不是根据初始状态分布进行采样。然后智能体-环境交互像标准在线 RL 设置一样进行。招聘板块分享悉尼科技大学招收全奖博士生(人工智能方向)。本次教程推荐板块为动手学强化学习(Hands-on reinforcement learning),在这个强化学习课程中,作者将使用简洁的Python代码,教你在动手中学习强化学习,循序渐进的带你从ZERO到HERO。让我们一起走过这条从基础知识到尖端深度强化学习的美好道路!所有教程代码同步发布在github。
标题:Hierarchical Imitation Learning with Vector Quantized Models(Aalto University | 基于矢量量化模型的分层模拟学习)
简介:在多个抽象级别上计划操作的能力使智能代理能够有效地解决复杂任务。然而,从演示中学习低层次和高层次规划的模型已被证明具有挑战性,尤其是在高维度输入的情况下。为了解决这个问题,该文建议使用强化学习来识别专家轨迹中的子目标,方法是将奖励的大小与给定状态和所选子目标的低级别行动的可预测性相关联。文章为所识别的子目标建立了一个向量量化生成模型,以执行子目标级规划。在实验中,该算法在解决复杂的、长期的决策问题方面优于最先进的算法。由于其计划能力,算法可以找到比训练集中更好的轨迹.
论文链接:https://arxiv.org/pdf/2301.12962.pdf
阅读详情
标题:Hierarchical Programmatic Reinforcement Learning via Learning to Compose Programs(National Taiwan University | 通过学习编写程序实现分层程序强化学习)
简介:Trivedi等人提出了一种方法(LEAPS),该方法首先学习程序嵌入空间,以从预先生成的程序数据集中连续参数化不同的程序,旨在生成可由人解释并能更好地推广到新场景的强化学习(RL)策略,然后当给定任务时在学习程序嵌入空间中搜索任务解决程序。尽管取得了令人鼓舞的结果,但LEAPS能够产生的计划政策受到计划数据集分布的限制。此外,在搜索过程中,LEAPS仅根据每个候选程序的返回结果对其进行评估,未能准确奖励程序的正确部分并惩罚不正确部分。为了解决这些问题,该文建议学习一种元策略,该策略由从学习的程序嵌入空间中采样的一系列程序组成。通过组合程序,文章提出的方法可以生成描述非分布复杂行为的程序策略,并直接为诱导期望行为的程序分配学分。该文在卡雷尔地区设计并进行了广泛的实验。实验结果表明,提出的框架优于基线。
论文链接:https://arxiv.org/pdf/2301.12950.pdf
阅读详情
标题:Select and Trade: Towards Unified Pair Trading with Hierarchical Reinforcement Learning(Wuhan University | 选择和交易:通过分层强化学习实现统一的配对交易)
简介:配对交易是最有效的统计套利策略之一,通过对冲一对选定资产来寻求中性利润。现有的方法通常将任务分解为两个单独的步骤:配对选择和交易。然而,两个密切相关的子任务之间的分离会阻碍信息传播,并导致总体性能受限。对于配对选择,忽略交易表现会导致错误的资产被选择,而价格变动不相关,而接受过交易培训的代理人可能会在没有任何其他资产历史信息的情况下过度投资所选资产。为了解决这一问题,在本文中提出了一种自动配对交易的模式,将其作为一个统一的任务,而不是两步流水线。论文设计了一个分层强化学习框架,以联合学习和优化两个子任务。高级策略将从所有可能的组合中选择两种资产,然后低级策略将执行一系列交易操作。对真实世界股票数据的实验结果表明,与现有的对选择和交易方法相比,该方法在对交易中的有效性。
论文链接:https://arxiv.org/pdf/2301.10724.pdf
阅读详情
标题:Hierarchical Reinforcement Learning Based Traffic Steering in Multi-RAT 5G Deployments(University of Ottawa | 多RAT 5G部署中基于分层强化学习的流量控制)
简介:在5G非独立模式下,智能流量控制机制可以通过从特定流量的多RAT环境中选择最佳无线接入技术(RAT)来极大地帮助确保用户体验的流畅。在本文中,提出了一种新的基于分层强化学习(HRL)的负载感知流量控制算法,同时满足不同流量类型的不同QoS要求。HRL可以使用具有元控制器和控制器的双层架构显著提高系统性能。在提出的方法中,元控制器为负载平衡提供适当的阈值,而控制器在较低级别执行到适当RAT的业务许可。仿真结果表明,HRL优于深度Q学习(DQN)和基于阈值的启发式基线,分别提高了8.49%、12.52%的平均系统吞吐量和27.74%、39.13%的网络延迟。
论文链接:https://arxiv.org/pdf/2301.07818.pdf
阅读详情
标题:Hierarchical Reinforcement Learning for Furniture Layout in Virtual Indoor Scenes(蓝鲸: Xinhan Di|虚拟室内场景中家具布局的分层强化学习)
简介:在现实生活中,通过设计家具布局来装饰3D室内场景,为人们提供了丰富的体验。 本文将家具布置任务探索为虚拟现实中的马尔可夫决策过程 (MDP),并通过分层强化学习 (HRL) 解决。 目标是在室内场景的虚拟现实中产生适当的两件家具布局。 特别是,本文首先设计了一个模拟环境,并为两件家具的布局引入了 HRL 公式。 然后,本文应用带有课程学习的分层演员-评论家算法来解决 MDP。 作者在包含专业设计师的工业设计的大型真实世界室内布局数据集上进行实验。 数值结果表明,与最先进的模型相比,所提出的模型产生了更高质量的布局。
论文链接:https://arxiv.org/pdf/2210.10431.pdf
阅读详情
标题:Hierarchical Decentralized Deep Reinforcement Learning Architecture for a Simulated Four-Legged Agent(比勒费尔德大学: W. Zai El Amri|模拟四足智能体的分层分散深度强化学习架构)
简介:有腿运动在自然界中很普遍,并启发了当前机器人的设计。 这些有腿机器人的控制器通常实现为一个集中式实例。 然而,在自然界中,对运动的控制以等级和分散的方式发生。 将这些生物设计原理引入机器人控制系统激发了这项工作。 本文解决了分散和分层控制是否对有腿机器人有益的问题,并提出了一种新颖的分散、分层架构来控制模拟有腿智能体。 设计了三个复杂程度不同的不同任务来对五种架构(集中式、分散式、分层和分层分散式架构的两种不同组合)进行基准测试。 结果表明,分散层次结构的不同级别有助于智能体的学习,确保更节能的运动以及对新的看不见的环境的鲁棒性。 此外,这种比较揭示了模块化在层次结构中解决复杂的目标导向任务的重要性。
论文链接:https://arxiv.org/pdf/2210.08003.pdf
阅读详情
标题:SHIRO: Soft Hierarchical Reinforcement Learning(科罗拉多大学博尔德分校: Kandai Watanabe|SHIRO:软层次强化学习)
简介:分层强化学习 (HRL) 算法已被证明在高维决策制定和机器人控制任务上表现良好。 然而,由于它们只针对奖励进行优化,因此智能体倾向于冗余地搜索相同的空间。 这个问题降低了学习速度和获得的奖励。本文提出了一种 Off-Policy HRL 算法,可以最大化熵以进行有效探索。 该算法学习时间抽象的低级策略,并能够通过向高级策略添加熵来进行广泛探索。 这项工作的新颖之处在于在 HRL 设置中向 RL 目标添加熵的理论动机。 根据经验表明,如果低级策略的连续更新之间的 Kullback-Leibler (KL) 差异足够小,则可以将熵添加到两个级别。 作者进行了一项烧蚀研究来分析熵对层次结构的影响,其中向高层添加熵成为最理想的配置。 此外,低层温度较高会导致 Q 值高估,并增加高层运行环境的随机性,使学习更具挑战性。
论文链接:https://arxiv.org/pdf/2212.12786.pdf
阅读详情
标题:Planning Irregular Object Packing via Hierarchical Reinforcement Learning(清华大学: Sichao Huang|通过分层强化学习规划不规则对象打包)
简介:在仓库和物流行业中,自主机器人进行物体包装是一项重要的挑战。大多数传统的数据驱动包装规划方法侧重于规则的长方体包装,这通常是启发式的,并限制了在日常对象的实际应用中的实际应用。本文提出了一种深度分层强化学习方法,以同时规划不规则对象的包装序列和放置。具体地说,高层管理者网络从所有对象的六个主视图高度图推断打包顺序,然后底层工作者网络接收下一个对象的高度图以预测放置位置和方向。这两个网络在自我监督的Q-Learning框架中分层训练,其中奖励由基于顶部高度、对象体积和盒子中放置稳定性的打包结果提供。该框架反复重复顺序和放置规划,直到所有对象都被打包到箱子中,或者没有空间来存放未打包的物品。本方法在物理模拟器中与现有的机器人包装方法进行了比较。实验表明,与最先进的不规则对象打包方法相比,本文的方法可以以更少的时间成本打包更多的对象。作者还用机器人操纵器实现了本文的包装计划,以展示现实世界中的泛化能力。
论文链接:https://arxiv.org/pdf/2211.09382.pdf
阅读详情
标题:Hierarchical reinforcement learning based energy management strategy of plug-in hybrid electric vehicle for ecological car-following process(东南大学: Hailong Zhang|基于分层强化学习的插电式混合动力汽车生态跟车过程能量管理策略)
简介:以经济为导向的自动混合动力汽车 (HEV) 通过优化驾驶行为和配电提供了巨大的节能潜力。HEV 发布后生态汽车的最新进展集中于通过协同优化融合自适应巡航控制 (ACC) 和能源管理系统 (EMS)。然而,ACC+EMS串联控制框架打破了运动控制与能量分配之间的内在耦合关系,导致其优化存在天然局限性。相反,集成的ACC-EMS有望提高节能效果,但带来了具有多尺度目标和大探索空间的复杂优化问题。巨大的计算负荷制约了ACC-EMS的在线应用。为了解决这些问题,本文提出了一种基于分层强化学习的 ACC-EMS 策略,该策略具有分层策略和非分层执行。上层学习规划充电状态和车头时距轨迹,而低层策略学习通过输出宿主车辆执行的控制变量来实现预期目标。仿真表明,与离线全局最优相比,所提出的策略显著提高了训练速度和稳定性
论文链接:https://www.sciencedirect.com/science/article/pii/S0306261922018566
阅读详情
标题:Autonomous acquisition of arbitrarily complex skills using locality based graph theoretic features: a syntactic approach to hierarchical reinforcement learning(土耳其马尔马拉大学: Zeynep Kumralbaş|使用基于局部的图论特征自主获取任意复杂的技能:一种分层强化学习的句法方法)
简介:随着状态/动作空间的增长,为常规强化学习 (RL) 算法(如平面 Q 学习)学习令人满意的策略很快变得不可行。处理此类情况的一种可能解决方案是采用分层 RL (HRL)。本文提出了两种方法来自主构建(1)技能(ASKA)和(2)通过在 HRL 中定义任意数量的层次结构(ASKAC )任意设计超级技能或复合体基于图的迭代增长环境模型。本研究在检测子目标时采用动态社区检测 (DCD),因为 DCD 仅考虑部分增长图上的局部变化,并降低了子目标检测的时间复杂度。DCD 的缺点是过度分割,它将子环境进一步错误划分为更小的组件。本文引入了技能耦合的概念.。技能耦合不仅有力地解决了过度分割问题,而且还通过构建在任意数量的层次结构中获得的更精细的复合体来改进 HRL,并减少导致采用这些复合体的目标的决策数量。
论文链接:https://link.springer.com/article/10.1007/s12530-022-09478-6?utm_source=xmol&utm_medium=affiliate&utm_content=meta&utm_campaign=DDCN_1_GL01_metadata
阅读详情
标题:A Decision-Making Model for Autonomous Vehicles at Intersections Based on Hierarchical Reinforcement Learning(北京理工大学: Xue-Mei Chen|基于分层强化学习的交叉路口自动驾驶汽车决策模型)
简介:针对在城市无信号交叉口考虑迎面而来车辆的自动驾驶车辆左转问题,本文提出了分层强化学习,并建立了两层模型来研究左转驾驶行为。与传统的固定路径决策模型相比,本文所提出的具有水平和垂直策略的多路径决策算法可以提高自动驾驶车辆通过交叉路口的效率,同时确保安全。
论文链接:https://www.worldscientific.com/doi/epdf/10.1142/S2301385024500122
阅读详情
标题:Multi-agent hierarchical reinforcement learning for energy management(麦吉尔大学: Imen Jendoubi|用于能源管理的多智能体分层强化学习)
简介:日益复杂的能源系统正在将注意力转向强化学习 (RL) 等无模型控制方法。这项工作提出了新颖的基于 RL 的能量管理方法,用于调度电网中可控设备的运行。本文所提出的方法提供了一种有效解决多维、多目标和部分可观察电力系统问题的工具。这项工作的新颖之处有三:实施了基于 RL 的分层控制策略来解决典型的能源调度问题。其次,提出了多智能体强化学习 (MARL) 来有效地协调不同的单元而没有通信负担。第三,提出了一种合并分层 RL 和 MARL 理论的控制策略,用于处理复杂电力系统问题的鲁棒控制框架。还介绍了各种基于 RL 和基于模型的控制方法的比较性能评估。三种典型能源调度场景的实验结果表明了所提出的控制框架的有效性。
论文链接:https://www.sciencedirect.com/science/article/pii/S0306261922017573
阅读详情
科研资讯
标题:DeepMind提出UFLP,实现样本高效率
简介:这项工作的重点是使用模拟器进行样本高效的深度强化学习 (RL)。模拟器的一个有用特性是通常很容易将环境重置为先前观察到的状态本研究团队提出了一个算法框架,称为不确定性优先局部规划 (UFLP),它利用了这个属性。具体来说,在每次数据收集迭代中,元算法都有一定的概率将环境重置为具有高度不确定性的观察状态,而不是根据初始状态分布进行采样。然后智能体-环境交互像标准在线 RL 设置一样进行。研究证明了这个简单的过程可以显著提高几个基线 RL 算法在困难探索任务上的样本成本。值得注意的是,通过此框架,可以在臭名昭著的 Atari 游戏 Montezuma's Revenge 上使用简单的(分布式)双 DQN 实现超人的性能。此工作可以被视为具有理论保证的现有算法的有效近似实现,它提供了对积极实证结果的解释。
资讯链接:https://arxiv.org/pdf/2301.12579.pdf
阅读详情
相关招聘
标题:悉尼科技大学招收全奖博士生(人工智能方向)
简介:林进灯老师是悉尼科技大学的杰出特聘教授,CIBCI实验室的负责人以及人工智能中心的联合主任。林老师曾任国立交通大学(National Chiao Tung University)教务长,Transactions on Fuzzy System前主编,IEEE Fellow,在模糊神经网络上做过非常出色的工作(单篇引用1900)。实验室funding较为充裕,设备也比较齐全。
招聘链接:https://mp.weixin.qq.com/s/wrzqwRuIIa7hKwL7bLpHHQ
阅读详情
教程推荐
标题:动手学强化学习(Hands-on reinforcement learning)
简介:强化学习(RL)是一种最接近人类和动物学习方式的机器学习。它为我们提供了一条构建通用人工智能系统的道路,可以解决我们能想到的最复杂的问题。在这个强化学习课程中,作者将使用简洁的Python代码,教你在动手中学习强化学习,循序渐进的带你从ZERO到HERO。让我们一起走过这条从基础知识到尖端深度强化学习的美好道路!所有教程代码同步发布在Github。
教程链接:https://datamachines.xyz/the-hands-on-reinforcement-learning-course-page/
阅读详情
如果你正在从事或关注强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
请扫描下方二维码加入。 备注:“姓名+单位+强化学习”才会验证进群哦。
评论
沙发等你来抢