关于周刊:

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第60期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及研究综述,以飨诸位。

 

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

 

本期贡献者:(李明,刘青、小胖)

 

关于周刊订阅:

告诉大家一个好消息,《强化学习周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

1,注册智源社区账号

2,点击周刊界面左上角的作者栏部分“强化学习周刊”(如下图),进入“强化学习周刊”主页。

 
 

3,点击“关注TA”(如下图)

 

4,您已经完成《强化学习周刊》订阅啦,以后智源社区会自动向您推送最新版的《强化学习周刊》!

 

论文推荐

本次推荐了15篇强化学习领域的相关论文,主要介绍了新的代数强化学习框架将整数可行性问题转化为一组具有固定边距和的数组上的博弈、提出了用于从未知环境中的agent体验片段中学习非马尔可夫任务规范的有限状态“任务自动机”、基于视觉的强化学习智能体提高对抗性攻击的敏感性和鲁棒性、基于误差控制行为体批评(ECAC)以降低近似误差基于学习的成本估算的自动指标选择器以提高指标选择的质量基于Multiple Choice QMIX的新MARL方法来解决有偏差的Q值问题、最后介绍了基于强化学习的自主无人机导航系统综述

 

标题:Turning Mathematics Problems into Games: Reinforcement Learning and Gröbner bases together solve Integer Feasibility Problems(加州大学戴维斯分校:Yue Wu | 将数学问题转化为博弈:强化学习和Gröbner基础共同解决整数可行性问题)

简介:可以通过玩游戏来训练代理人回答困难的数学问题吗?考虑整数可行性问题,这是一个确定线性方程组和不等式组是否具有整数值解的挑战。本文描述了新的代数强化学习框架,解释了如何将整数可行性问题转化为一组具有固定边距和的数组上的博弈。游戏从初始状态(数组)开始,通过应用保持边距不变的合法移动,其目标是最终达到在特定位置为零的获胜状态。关键的代数成分是底层轴向运输多面体复曲面理想的Gröbner。Gröbner基础可以被视为博弈中一组连接动作(动作)。该方法训练智能体预测连续空间中的移动,以应对大尺寸的动作空间。然后将连续移动投影到一组合法移动上,以便路径始终指向有效状态。研究结果表明,其可以很好地玩最简单的双向桌游戏。并通过当代机器学习方法训练代理解决非平凡数学查询的潜力,以用于训练智能体玩游戏。

论文链接:https://arxiv.org/pdf/2208.12191.pdf

阅读详情

 

标题:A Comparison of Reinforcement Learning Frameworks for Software Testing Tasks(Polytechnique Montr´eal:Paulina Stevia Nouwou Mindom | 软件测试任务强化学习框架的比较)

简介:软件测试活动旨在发现软件产品的可能缺陷,并确保产品满足其预期要求。一些方法缺乏自动化,这增加了测试时间和总体软件测试成本。最近,强化学习(RL)已成功地应用于复杂的测试任务以实现流程自动化并提供持续适应。然而,目前没有任何研究从经验上评估RL框架中预实现算法的有效性和性能。本文实证研究了精心选择的RL算法在两个重要的软件测试任务中的应用:连续集成(CI)环境下的测试用例优先级排序和游戏测试。游戏测试任务,在简单的游戏上进行实验,并使用RL算法探索游戏以检测错误。结果表明,选定的RL框架(如Tensorforce)优于文献中的研究方法。为了区分测试用例的优先级,在CI环境中运行实验,其中使用来自不同框架的RL算法对测试用例进行排序。在某些情况下,预实现算法之间的性能差异相当大,因此需要进一步研究。此外,建议研究人员对一些基准问题进行经验评估,以选择RL框架,确保RL算法按预期运行。

论文链接:https://arxiv.org/pdf/2208.12136.pdf

阅读详情

 

标题:Learning Task Automata for Reinforcement Learning using Hidden Markov Models(牛津大学: James Fox | 基于隐马尔可夫模型的强化学习任务自动机)

简介:当环境具有稀疏和非马尔可夫奖励时,使用标量奖励信号训练强化学习(RL)智能体通常是不可行的。此外,在训练之前手工制作这些奖励函数很容易出现指定错误,特别是当环境的动态仅部分已知时。本文提出了新的管道,用于从未知环境中的agent体验片段中学习非马尔可夫任务规范,作为简洁的有限状态“任务自动机”。其学习由规范的自动机和环境的MDP(初始未知)组成的模型。进而提出了从学习的乘积MDP中提取任务自动机(假设为确定性有限自动机)的新方法,以提高RL智能体稍后合成最优策略的速率。它还提供了高级环境和任务特征的可解释编码,因此人类可以很容易地验证智能体已经学习了连贯的任务,没有错误指定。此外,还采取措施确保学习的自动机与环境无关,使其非常适合用于迁移学习。最后,提供了实验结果,以说明该算法在不同环境和任务中的性能,以及它结合先验领域知识以促进更有效的学习的能力。

论文链接:https://arxiv.org/pdf/2208.11838.pdf

阅读详情

 

标题:A model-based approach to meta-Reinforcement Learning: Transformers and tree search(UCLouvain:Brieuc Pinon | 基于模型的元强化学习方法:Transformers 和树搜索)

简介:元学习旨在发展利用过去经验有效解决新学习问题的能力。元强化学习 (meta-RL) 方法展示了学习行为的能力,这些行为可以有效地获取和利用多个元强化学习问题中的信息。在此背景下,Wang 等人提出了 Alchemy 基准。[2021]。Alchemy 具有丰富的结构化潜在空间,这对于最先进的无模型 RL 方法具有挑战性。这些方法无法学会正确探索然后利用。本文提出了基于模型的算法。并训练了一个模型,其主要块是一个 Transformer Encoder,以适应符号 Alchemy 环境动态。然后使用树搜索方法定义一个带有学习模型的在线规划器。该算法在符号炼金术问题上明显优于先前应用的无模型强化学习方法。研究结果揭示了基于模型的方法与在线规划在元强化学习中成功进行探索和利用的相关性。此外,还展示了 Transformer 架构在学习元强化学习问题中存在的潜在空间产生的复杂动态方面的效率。

论文链接:https://arxiv.org/pdf/2208.11535.pdf

阅读详情

 

标题:Self-Supervised Exploration via Temporal Inconsistency in Reinforcement Learning(强化学习中基于时间不一致性的自监督探索)

简介:在现实世界的场景中,尽管人们对该领域的兴趣激增,但稀疏奖励协同设置下的强化学习仍然具有挑战性。先前的尝试表明,内在奖励可以缓解由稀疏性引起的问题。本文提出了受人类学习启发的新颖内在奖励,因为人类通过将当前观察与历史知识进行比较来评估好奇心。即通过训练自监督的预测模型并保存了一组模型参数的快照,而不会产生额外的训练成本。然后使用核范数来评估不同快照的预测之间的时间不一致,这可以进一步部署为内在奖励。此外,提出了一种变分加权机制,以自适应的方式为不同的快照分配权重。最终证明了该方法在各种基准环境中的有效性。结果表明,与其他基于奖励的内在方法相比,此方法可以提供压倒性的最新性能,而不会产生额外的训练成本并保持更高的噪声容限。本文的代码将公开发布以提高可重复性。

论文链接:https://arxiv.org/pdf/2208.11361.pdf

阅读详情

 

标题:BARReL: Bottleneck Attention for Adversarial Robustness in Vision-Based Reinforcement Learning(ETH Zurich :Eugene Bykovets | BARReL:基于视觉的强化学习中对抗鲁棒性的瓶颈注意)

简介:在计算机视觉的许多领域中,已经探索了对抗性干扰的鲁棒性。这种鲁棒性在基于视觉的强化学习中尤其相关,因为自主智能体的行为在现实世界中可能是安全批评家或有影响力的。其研究了基于视觉的强化学习代理对基于梯度的对抗性攻击的敏感性,并评估了潜在的防御。并观察到,CNN体系结构中包含的瓶颈注意模块(BAM)可以作为潜在的工具来增强对抗性攻击的鲁棒性。进而展示了如何通过将空间激活限制到显著区域来使用学习的注意力图来恢复卷积层的激活。在许多RL环境中,BAM增强的体系结构在推理过程中表现出更强的鲁棒性。最后,本文讨论了未来的研究方向。

论文链接:https://arxiv.org/pdf/2208.10481.pdf

阅读详情

 

标题:A Provably Efficient Model-Free Posterior Sampling Method for Episodic Reinforcement Learning(Google Research:Julian Zimmert | 一种可证明有效的无模型后验抽样方法用于情景强化学习)

简介:Thompson采样是上下文老虎机最有效的方法之一,并已推广到某些MDP设置的后验采样。然而,现有的用于强化学习的后验抽样方法受到基于模型的限制,或者缺乏超出线性MDP的最坏情况理论保证。本文提出了新的无模型后验抽样公式,其适用于具有理论保证的更一般的情景强化学习问题。并引入了新的证明技术,以证明在适当的条件下,该后验抽样方法的最坏情况遗憾与基于优化的方法的最佳已知结果相匹配。在具有维数的线性MDP设置中,与现有基于后验采样的探索算法的二次依赖性相比,该算法的遗憾与维数成线性比例。

论文链接:https://arxiv.org/pdf/2208.10904.pdf

阅读详情

 

标题:Play with Emotion: Affect-Driven Reinforcement Learning(马耳他大学: Matthew Barthet|情感游戏:情感驱动的强化学习)

简介:本文通过将影响建模的任务视为强化学习(RL)过程,引入了范式转变。其假设RL是一种有效的范式,可以将情感激发和表现与行为和情感展示交织在一起。基于达马西奥的躯体标记假设,第二个假设是情绪可以是决策的促进者。通过训练Go混合智能体来模拟人类的觉醒和行为,在一场比赛中测试以上假设;Go Blend是Go Explore算法的改进版本,最近在硬探索任务中表现出了卓越的性能。首先改变基于唤醒的奖励函数,观察能够根据指定奖励有效显示情感和行为模式调色板的智能体。然后,使用基于唤醒的状态选择机制来偏向Go Blend探索的策略。研究结果表明,Go Blend不仅是一种有效的情感建模范式,更重要的是,情感驱动的RL改进了探索并产生了更高性能的智能体,验证了达马西奥在游戏领域的假设。

论文链接:https://arxiv.org/pdf/2208.12622

阅读详情

 

标题:Socially Fair Reinforcement Learning(牛津大学: Debmalya Mandal|社会公平强化学习)

简介:本文考虑了具有不同奖励函数的多个利益相关者的情景强化学习问题。目标是制定一项针对不同奖励功能的社会公平策。本文对问题采取公理化的观点,并提出任何这样的公平目标必须满足的四个公理。研究表明纳什社会福利是唯一满足所有四个目标的唯一目标,而先前的目标无法满足所有四条公理。然后,考虑问题的学习版本,其中基础模型即马尔可夫决策过程是未知的。考虑了公平策最大化三个不同公平目标(最低福利、广义基尼福利和纳什社会福利)的遗憾最小化问题。提出了一种通用学习算法,推导了它对于三种不同策略的遗憾界。为了实现纳什社会福利的目标,本文还推导了遗憾的下界,该下界随智能体数n呈指数增长。

论文链接:https://arxiv.org/pdf/2208.12584

阅读详情

 

标题:Error Controlled Actor-Critic(厦门理工大学: Xingen Gao|误差控制的 Actor-Critic)

简介:在强化学习(RL)算法中,值函数的近似误差不可避免地导致高估现象,这对算法的收敛性有负面影响。为了限制近似误差的负面影响,本文提出了误差控制行为体批评(ECAC),确保近似误差限制在值函数内。研究了近似误差如何影响演员-批评家方法的优化过程。此外,推导了Q函数近似器的近似误差的上界,并发现通过在策略训练期间限制每两个连续策略之间的KL-散度,可以减小误差。在各种连续控制任务上的实验表明,所提出的actor-critic方法降低了近似误差,并显著优于先前的无模型RL算法。

论文链接:https://www.sciencedirect.com/science/article/pii/S0020025522009896

阅读详情

 

标题:RL-MLZerD: Multimeric protein docking using reinforcement learning(普渡大学: Tunde Aderinwale|RL-MLZerD:基于强化学习的多聚体蛋白质对接)

简介:细胞中的许多生物学过程都是由蛋白质复合物进行的。为补充复合物的实验结构测定,已许多计算蛋白对接方法。但是,这些对接方法中的大多数仅设计用于与两个链条对接。本文介绍了新颖的方法RL-Mlzerd,使用强化学习(RL)构建了多个蛋白质复合物。在RL-Mlzerd中,多链组装过程被认为是在RL框架中选择和集成预计的成对对接模型的一系列情节。RL在正确选择与复杂结构中的其他亚单位很好匹配的似是而非的成对模型方面是有效的。当在具有三到五个链的蛋白质复合物的基准数据集上进行测试时,RL-Mlzerd在不同的评估标准下表现出比其他现有多个对接方法的建模性能更好,除了在未结合对接中针对α折叠多聚体。此外,通过研究RL计算中的优选路径,可以自然地预测多链复合物的对接顺序。

论文链接:https://www.frontiersin.org/articles/10.3389/fmolb.2022.969394/full

阅读详情

 

标题:An adaptive framework to select the coordinate systems for evolutionary algorithms(西安电子科技大学: Weifeng Gao|进化算法坐标系选择的自适应框架)

简介:许多进化算法通常利用固定的原始坐标系进行搜索,不能有效地匹配不同的功能景观。为,本文提出了自适应框架 STCS 来选择进化算法的坐标系。在科学、技术和创新科技中心,特征坐标系是由一个基于档案的协方差矩阵构建的,它可以捕捉功能景观的特征。此外,原始坐标系和特征坐标系的选择过程被定义为一个马可夫决策过程,并由强化学习算法控制。STCS 被应用于三种流行的进化算法,即差异进化算法、粒子群优化和基于教学的优化。在 IEEE CEC2013、 IEEE CEC2014和 IEEE CEC2017测试套件上的实验结果表明,STCS 是有效和具有竞争力的。

论文链接:https://www.sciencedirect.com/science/article/pii/S156849462200638X

阅读详情

 

标题:Automatic Index Selection with Learned Cost Estimator(北京交通大学: Jianling Gao|基于学习成本估计的指标自动选择)

简介:为关系数据库选择有用的索引对于有效的查询优化非常重要。然而,目前的方法倾向于使用数据库管理系统(DBMS)中优化器估计的成本来衡量索引的好处,并且由于成本估计不准确,不能得到最优的解决方案。此外,现有的强化学习方法将创建不同的指标视为独立的行动,忽略了指标之间的关系,这可能会带来不必要的训练成本。为此,本文提出了 DeepIndex,基于学习的成本估算的自动指标选择器,以提高指标选择的质量。为了准确地估计索引的效益,本文设计了基于学习的成本估计器来预测特定索引上查询的执行时间。尤其将查询计划视为图形,并开发了基于图卷积网络(GCN)的模型来从查询和索引中学习特征。然后,考虑指标间的相互关系,设计了基于强化学习的指标选择模型,并结合本文的成本估计器进行指标选择。

论文链接:https://www.sciencedirect.com/science/article/pii/S156849462200638X

阅读详情

 

标题:Correcting biased value estimation in mixing value-based multi-agent reinforcement learning by multiple choice learning(哈尔滨工业大学: Bing Liu|通过多项选择学习校正基于混合值的多智能体强化学习中的偏差值估计)

简介:与仅减少预测方差的集成方法不同,多项选择学习 (MCL) 方法利用所有候选模型之间的合作。本文通过利用集成模型和多智能体强化学习(MARL) 之间的协作来纠正有偏的 Q 值,以获得更稳定和更精确的 Q 值估计量。其提出了Multiple Choice QMIX的新MARL方法来解决有偏差的Q值问题,这也扩展了MCL方法的应用场景。通过投票网络来学习每个估计器的置信度,从而可以通过组合它们的结果来提供最佳预测。并提出了投票后的损失,以鼓励投票网络克服对 Q 值的高估。本文还对星际争霸 II 微观管理基准的四项具有挑战性的任务进行了实验。实验结果表明,方法在多智能体任务中获得了更快的收敛速度和更稳定的性能。

论文链接:https://www.sciencedirect.com/science/article/pii/S0952197622003621#!

阅读详情

 

标题:A reinforcement learning approach for multi-fleet aircraft recovery under airline disruption(首尔大学: Junhyeok Lee|空公司中断情况下多机队飞机恢复的强化学习方法)

简介:恢复中断的航班时刻表对航空公司来说至关重要。先前研究都依赖于飞行弧线的副本,这可能会影响解决方案的质量,并且没有将航空公司准时绩效的关键衡量标准作为其目标。本文提出了使用强化学习方法进行飞机恢复以支持航空公司运营的 Q 学习和双 Q 学习算法。提出了人工环境的日常航班时刻表和飞机恢复的马尔可夫决策过程。首先将方法与基准实例上的现有算法进行比较。与其他算法相比,开发的 Q 学习和双 Q 学习算法在适当的计算时间内获得了高质量的解决方案。并采用了韩国一家航空公司的国内航班时刻表,对真实世界数据进行的一组实验中评估强化学习方法。计算实验表明,强化学习算法可以有效地恢复中断的航班时刻表,并且方法可以灵活地适应各种目标和现实条件。

论文链接:https://www.sciencedirect.com/science/article/pii/S1568494622006226

阅读详情

 

研究综述

标题:Autonomous Unmanned Aerial Vehicle navigation using Reinforcement Learning: A systematic review(韦仕敦大学(UWO): Fadi AlMahamid|使用强化学习的自主无人机导航:系统综述)

简介:在包裹递送、交通监控、搜索和救援行动以及军事作战等不同应用中,人们越来越需要使用无人机 (UAV)。在所有这些应用中,无人机都用于自主导航环境——无需人工干预、执行特定任务并避开障碍物。自主无人机导航通常使用强化学习 (RL) 来完成,其中智能体充当某个领域的专家,在避开障碍物的同时导航环境。了解导航环境和算法限制对于选择合适的 RL 算法来有效解决导航问题起着至关重要的作用。最后,本研究首先确定了主要的无人机导航任务,并讨论了导航框架和仿真软件。接下来,根据环境、算法特点、能力和在不同无人机导航问题中的应用,对RL算法进行分类和讨论,这将有助于从业者和研究人员为他们的无人机导航用例选择合适的RL算法。此外,确定的差距和机遇将推动无人机导航研究。

论文链接:https://www.sciencedirect.com/science/article/pii/S095219762200358X#!

阅读详情

 

如果你正在从事或关注强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

 

学习前沿知识、求解疑难困惑

分享经验心得、展示风貌才华

参与专属活动、结识研究伙伴

 

请扫描下方二维码加入。