关于周刊:

关于周刊订阅:

告诉大家一个好消息,《强化学习周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

1,注册智源社区账号

2,点击周刊界面左上角的作者栏部分“强化学习周刊”(如下图),进入“强化学习周刊”主页。  

3,点击“关注TA”(如下图)

4,您已经完成《强化学习周刊》订阅啦,以后智源社区会自动向您推送最新版的《强化学习周刊》!

导语:

强化学习作为人工智能领域研究热点之一,其在人工智能领域以及学科交叉研究中的突出表现,引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯,智源社区结合以前工作基础及读者反馈,在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块,撰写为第67期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:(李明,刘青、小胖)

导读

本期周刊共分四个板块,本周论文推荐板块为读者梳理了ICLR2022的12篇强化学习相关研究论文,其中涉及到蛋白质靶向支架抑制剂、规则发现、交互式学习、模块化终身强化学习、基于偏好的强化学习、元强化学习、贝叶斯推断等;科研资讯为读者分享来自微软亚洲研究院,基于掩码的建模技术助力强化学习;本次招聘版块为大家介绍来自加州大学圣克鲁兹分校王鑫教授招收博士生(NLP、CV、AI等方向);本次教程推荐板块为大家分享谷歌:强化学习中基于模型的方法教程,本教程概括介绍了基于模型的强化学习(MBRL)领域,特别强调了深度方法。MBRL方法利用环境模型来做出决策,而不是将环境视为一个黑匣子,并提供了超越无模型RL的独特机会和挑战。为回馈读者的支持,我们还为大家推出赠书活动,凡是订阅《强化学习周刊》并转发本期周刊内容(Hub网页版、微信版均可)到朋友圈的前5名读者,都可以免费得到EASYRL强化学习案例与实践(蘑菇书)。

订阅赠书

图书标题:EasyRL强化学习案例与实践(蘑菇书)

简介本教程被称为“蘑菇书”,寓意是希望此书能够为读者注入活力,让读者“吃”下这本蘑菇之后,能够饶有兴致地探索强化学习,像马里奥那样愈加强大,继而在人工智能领域觅得意外的收获。本教程内容主要整理自强化学习领域经典的中文视频之一——李宏毅老师的《深度强化学习》,同时整合了周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说非常值得推荐的。

教程链接:https://datawhalechina.github.io/easy-rl/#/

活动内容:订阅《强化学习周刊》,并转发周刊(Hub网页版、微信版均可)至微信朋友圈,凭订阅和转发的截图(发至:changzheng@baai.ac.cn),前5名将获得《EASYRL强化学习案例与实践》(蘑菇书)。

阅读详情

论文推荐

国际表征学习大会(简称:ICLR),是深度学习领域的顶级会议。第十届国际学习代表大会(虚拟),4月25日星期一至29日星期五。

标题:Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and Heuristic Rule-based Methods for Object Manipulation(JD Explore Academy:Ting Yao | 2021 ManiSkill的Silver-Bullet-3D:从演示和基于启发式规则的对象操作方法中学习)

简介:本文概述并比较分析了在2021 SAPIEN ManiSkill挑战赛中为以下两个轨道设计的系统:无交互轨道:从预先收集的演示轨迹中学习政策的无交互轨道目标。其研究了基于模仿学习的方法,即使用经典监督学习技术模仿观察到的行为,以及基于离线强化学习的方法。此外,通过基于Transformer的网络来利用对象和机器人手臂的几何和纹理结构,以促进模仿学习。无限制轨道:在此轨道中,设计了一种基于启发式规则的方法(HRM),通过将任务分解为一系列子任务来触发高质量的对象操作。对于每个子任务,采用简单的基于规则的控制策略来预测可应用于机器人手臂的动作。

论文链接:https://arxiv.org/pdf/2206.06289.pdf

阅读详情

标题:De novo design of protein target specific scaffold-based Inhibitors via Reinforcement Learning(PNNL:Andrew D. McNaughton | 基于强化学习的蛋白质靶向支架抑制剂的De novo设计)

简介:靶向驱动分子的有效设计和发现是促进药物发现中铅优化的关键步骤。目前研究靶蛋白分子的方法是直觉驱动的,由于利用3D结构数据的计算挑战,迭代设计测试周期缓慢,最终受到化学家专业知识的限制,从而导致分子设计的瓶颈。本文提出了一个新的框架,称为3D MolGNNRL,将强化学习(RL)耦合到基于3D支架的深度生成模型,以生成针对从起始核心支架逐原子构建的蛋白质的靶候选。3D MolGNNRL提供了一种利用并行图神经网络模型通过蛋白质口袋内的多目标奖励函数优化关键特征的有效方法。该试剂学习在3D空间中构建分子,同时优化针对传染病蛋白质靶点生成的候选物的活性、结合亲和力、效力和合成可及性。该方法可以作为一种可解释的人工智能(AI)工具,用于优化铅的活性、效力和生物物理特性。

论文链接:https://arxiv.org/pdf/2205.10473.pdf

阅读详情

标题:R5: Rule Discovery with Reinforced and Recurrent Relational Reasoning(阿尔伯塔大学:Shengyao Lu | R5:具有增强和递归关系推理的规则发现

简介:系统性,即在对关系数据进行推理的同时重新组合已知部分和规则以形成新序列的能力,对机器智能至关重要。具有较强系统性的模型能够训练小规模任务,并推广到大规模任务。本文提出了R5-基于强化学习的关系推理框架,它对关系图数据进行推理,并从观察中明确挖掘潜在的组成逻辑规则。R5具有较强的系统性,并且对噪声数据具有鲁棒性。它由一个策略值网络和一个用于规则挖掘的回溯重写机制组成,策略值网络配备了Monte Carlo树搜索来执行递归关系预测。通过交替应用这两个分量,R5逐渐从数据中学习一组显式规则,并执行可解释和可概括的关系预测。并对多个数据集进行了广泛的评估。实验结果表明,R5在关系预测任务上优于各种基于嵌入和规则归纳的基线,同时在发现基本事实规则方面实现了高召回率。

论文链接:https://arxiv.org/pdf/2205.06454.pdf

阅读详情

标题:Know Thy Student: Interactive Learning with Gaussian Processes(Stanford University : Rose E. Wang | 了解学生主体:基于高斯过程的交互式学习)

简介:学习通常涉及多个主体之间的互动。人性化的师生环境最能说明教师如何根据学生的能力构建课程,从而实现有效的知识传递。机器教学中的前期工作研究了假设教师了解学生的一切,教师应该如何构建最佳教学数据集。然而,在现实世界中,老师没有关于学生的完整信息。教师必须在教学前与学生互动并对其进行诊断。本文提出了一种简单的诊断算法,在构建教学数据集之前,使用高斯过程来推断学生相关信息。并将此应用于两种设置。一种是学生从头开始学习,老师必须找出学生的学习算法参数,例如岭回归或支持向量机中的正则化参数。另一种是学生已经部分探索了环境,老师必须找出学生没有探索的重要领域;在离线强化学习环境中研究这一点,老师必须向学生提供演示,避免发送多余的轨迹。通过实验强调了教学前诊断的重要性,并演示了学生如何在互动式教师的帮助下更有效地学习。最后概述了诊断与教学相结合比被动学习更可取的地方。

论文链接:https://arxiv.org/pdf/2204.12072.pdf

阅读详情

标题:Modular Lifelong Reinforcement Learning via Neural Composition(宾夕法尼亚大学&微软研究院: Jorge A. Mendez|基于神经组合的模块化终身强化学习)

简介:人类解决复杂问题的方法通常是将其分解为较容易的子问题,然后将子问题的解决方案结合起来。这种类型的组合推理允许在处理共享部分基本组合结构的未来任务时重复使用子问题的解决方案。在持续或终身强化学习(RL)的环境中,这种将知识分解成可重复使用的组件的能力将使智能体能够通过利用积累的组合结构快速学习新的RL任务。本文探索了一种基于神经模块的特殊形式的组合,并提出了一组直观地承认组合解决方案的RL问题。从经验上看,本文证明了神经组合确实捕捉到了这个问题空间的基本结构。并且本文进一步提出了一种组合式的终身RL方法,该方法利用积累的神经组件来加速学习未来的任务,同时通过重放经验的离线RL来保留先前任务的性能。

论文链接:https://arxiv.org/pdf/2207.00429.pdf

阅读详情

标题:Reward Uncertainty for Exploration in Preference-based Reinforcement Learning(加利福尼亚大学: Xinran Liang|基于偏好的强化学习探索的奖励不确定性)

简介:基于偏好的强化学习( RL )方法能够通过积极地结合人类反馈(即专家在两个行为片段之间的偏好)来学习基于人类偏好的更灵活的奖励模型。然而,在当前基于偏好的 RL 算法中,反馈效率低仍然是一个问题,因为定制的人工反馈非常昂贵。为了处理这个问题,本文提出了一种专门针对基于偏好的 RL 算法的探索方法。此文的主要想法是通过基于学习奖励衡量新颖性来设计内在奖励。具体来说,本文利用学习奖励模型集合中的分歧,学习奖励模型中的分歧反映了量身定制的人类反馈的不确定性,并且可能对探索有用。文中的实验表明,与其他衡量状态访问新颖性的现有探索方法相比,学习奖励的不确定性带来的探索奖励提高了基于偏好的 RL 算法在 MetaWorld 基准中复杂机器人操作任务的反馈和样本效率。

论文链接:https://arxiv.org/pdf/2205.12401.pdf

阅读详情

标题:Dynamic Noises of Multi-Agent Environments Can Improve Generalization: Agent-based Models meets Reinforcement Learning(曼尼托巴大学: Mohamed Akrout|多智能体环境的动态噪声可以提高泛化能力:基于智能体的模型遇到强化学习)

简介:本文研究了基于智能体模型 (ABM) 的强化学习 (RL) 环境的好处。虽然众所周知 ABM 以计算复杂性为代价提供微观基础模拟,但此文在这项工作中凭经验表明,它们的非确定性动力学可以提高 RL 智能体的泛化能力。为此,本文检查了基于微分方程或 ABM 的流行 SIR 环境的控制。数值模拟表明,基于 ABM 的 SIR 模型动力学中的固有噪声不仅提高了平均奖励,而且还允许 RL 智能体在更广泛的流行病参数上进行泛化。

论文链接:https://arxiv.org/pdf/2204.14076.pdf

阅读详情

标题:Skill-based Meta-Reinforcement Learning(韩国科学技术院: Taewook Nam|基于技能的元强化学习

简介:虽然深度强化学习方法在机器人学习中显示出令人印象深刻的结果,但它们的样本效率低下使得用真实机器人系统学习复杂、长视界的行为变得不可行。本文设计了一种方法,可以在长期、稀疏奖励任务上进行元学习,使能够以更少的环境交互来解决看不见的目标任务。本文的核心思想是在元学习期间利用从离线数据集中提取的先前经验。具体来说,(1)从离线数据集中提取可重用的技能和技能先验;(2)元训练一个高层次的策略,学习将学到的技能有效地组成长期行为;(3)快速适应元训练的策略,以解决一个未见过的目标任务。在导航和操纵方面的连续控制任务的实验结果表明,所提出的方法通过结合元学习和使用离线数据集的优势,可以有效地解决长距离的新目标任务,并不需要大量的环境互动来解决这些任务。

论文链接:https://arxiv.org/pdf/2204.11828.pdf

阅读详情

标题:Understanding and Preventing Capacity Loss in Reinforcement Learning(牛津大学: Clare Lyle|理解和预防强化学习中的能力损失)

简介:强化学习 (RL) 问题充满了非平稳性的来源,使其成为神经网络应用的一个出了名的困难问题领域。 本文确定了一种机制,通过这种机制,非平稳预测目标可以阻止深度强化学习智能体的学习进度:容量损失,即在一系列目标值上训练的网络随着时间的推移失去了快速更新其预测的能力。 本文证明容量损失发生在一系列强化学习智能体和环境中,并且对稀疏奖励任务的性能尤其有害。 然后,本文提出了一个简单的正则化器,初始特征正则化 (InFeR),它通过在初始化时将特征子空间回归到其值来缓解这种现象,从而在诸如蒙特祖玛的复仇之类的稀疏奖励环境中显着提高性能。 作者得出的结论是,防止容量损失对于使智能体能够最大程度地从他们在整个训练轨迹中获得的学习信号中受益至关重要。

论文链接:https://arxiv.org/pdf/2204.09560.pdf

阅读详情

标题:When Should We Prefer Offline Reinforcement Learning Over Behavioral Cloning?(伯克利大学: Aviral Kumar|什么时候我们应该更喜欢离线强化学习而不是行为克隆?)

简介:离线强化学习(RL)算法可以利用先前收集的经验获得有效的策略,而无需任何在线交互。 众所周知,离线 RL 甚至能够从高度次优的数据中提取良好的策略,在这种情况下,模仿学习会发现次优的解决方案并没有改进生成数据集的演示器。 但是,从业者的另一个常见用例是从类似于演示的数据中学习。 在这种情况下,可以选择应用离线 RL,但也可以使用行为克隆 (BC) 算法,该算法通过监督学习模拟数据集的一个子集。 因此,很自然地要问:即使 BC 是自然选择,离线 RL 方法何时才能在等量专家数据的情况下优于 BC? 本文描述了允许离线 RL 方法比 BC 方法表现更好的环境属性,即使只提供专家数据也是如此。 此外,本文表明,在足够嘈杂的次优数据上训练的策略甚至可以比使用专家数据的 BC 算法获得更好的性能,尤其是在长视野问题上。

论文链接:https://arxiv.org/pdf/2204.05618.pdf

阅读详情

标题:SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning(韩国科学技术院: Jongjin Park|SURF:带数据增强的半监督奖赏学习,用于反馈有效的基于偏好的强化学习)

简介:基于偏好的强化学习(RL)已经显示出,通过在两种智能体行为之间学习主管偏好的奖励,教学智能体可以在没有昂贵的预定义奖励功能的情况下执行目标任务。然而,基于偏好的学习通常需要大量的人类反馈,这使得很难将这种方法应用于各种应用。另一方面,这种数据效率问题通常通过在监督学习的背景下使用未标记样本或数据增强技术来解决。受这些方法最近成功的激励,本文提出了SURF,一种半监督的奖励学习框架,它利用大量未标记的样本进行数据增强。为了利用未标记样本进行奖励学习,本文基于偏好预测器的置信度推断未标记样本的伪标签。为了进一步提高奖励学习的标签效率,作者引入了一种新的数据增强,它从原始行为中临时裁剪连续的子序列。实验表明,本文提出的方法显著提高了最先进的基于偏好的方法对各种运动和机器人操纵任务的反馈效率。

论文链接:https://arxiv.org/pdf/2203.10050.pdf

阅读详情

标题:COPA: Certifying Robust Policies for Offline Reinforcement Learning against Poisoning Attacks(伊利诺伊大学香槟分校: Fan Wu|COPA:认证针对中毒攻击的离线强化学习的稳健策略)

简介:由于强化学习(RL)在各种任务中取得了接近人类水平的性能,其鲁棒性受到了极大的关注。尽管大量的研究已经探索了RL中的测试时间(逃避)攻击和相应的防御,但其对训练时间(中毒)攻击的鲁棒性仍然基本上没有答案。本文专注于证明离线RL在存在中毒攻击时的鲁棒性,其中训练轨迹的子集可以被任意操纵。作者提出了一个认证框架COPA,以认证不同认证标准下可容忍的中毒轨迹数量。鉴于RL的复杂结构,本文提出了两个认证标准:每个状态行为稳定性和累积奖励界限。作者进一步证明了所提出的一些证明方法在理论上是严格的,而一些是NP完全问题。实验结果显示:(1)所提出的鲁棒聚合协议(例如时间聚合)可以显着提高认证; (2) 对每个状态的动作稳定性和累积奖励界限的认证是高效且严格的; (3) 不同训练算法和环境的认证是不同的,暗示了它们内在的鲁棒性。

论文链接:https://arxiv.org/pdf/2203.08398.pdf

阅读详情

科研资讯

标题:首次应用!基于掩码的建模技术助力强化学习

简介:视觉状态表征的质量对基于视觉的强化学习(vision-based reinforcement learning)至关重要。为了学习高效的状态表征,微软亚洲研究院的研究员们创新性地将基于掩码的建模技术(mask-based modeling)应用到强化学习中,以促进其状态表征学习。此前基于掩码的建模技术已经在 CV 和 NLP 领域中大放异彩,而这项工作是将其应用到强化学习领域帮助策略学习的首次探索。其提出了一种简单而有效的自我监督方法,即基于掩码的潜在空间重建 (MLR),以从具有空间和时间掩码像素的观察中预测潜在空间中的完整状态表示。MLR 可以在学习状态表示时更好地使用上下文信息,从而使它们更具信息性,这有助于 RL 智能体训练。广泛的实验表明, MLR 显著提高了 RL 中的采样效率,并且在多个连续的基准测试环境中优于最先进的采样效率 RL 方法。

资讯链接:https://arxiv.org/pdf/2201.12096.pdf

阅读详情

相关招聘

标题:加州大学圣克鲁兹分校王鑫教授招收博士生(NLP、CV、AI等方向)

简介:王鑫现为加州大学圣克鲁兹分校计算机科学与工程系的助理教授,领导组建了ERIC实验室。他的研究方向主要包括自然语言处理,计算机视觉,和机器学习,尤其是Embodied AI和多模态领域。他曾在谷歌研究院,Facebook人工智能研究院,微软研究院,Adobe研究院等实习工作。担任过ICLR/ACL/NAACL/EMNLP等AI和NLP顶级会议的领域主席,和AAAI/IJCAI的高级程序委员。他在ACL/CVPR/ICCV等顶会组织过多次workshop和tutorial,内容包括视觉和语言,自然语言处理的自监督学习等,曾获得CVPR最佳学生论文奖,亚马逊Alexa Prize奖(两次:SimBot & SocialBot),谷歌教职研究奖等。目前UCSC的CSE系实力也在迅速上升,并且圣克鲁兹本身也是一个十分宜居的海滨度假城市,有加州阳光和沙滩,还有独特的红木森林。导师主页:https://www.aminer.cn/profile/xin-eric-wang/5613dfe645ce1e59632759d3

截止日期:2023.10.1

招聘链接:https://grad.soe.ucsc.edu/cse

阅读详情

教程推荐

标题:谷歌:强化学习中基于模型的方法教程

简介:本教程概括介绍了基于模型的强化学习(MBRL)领域,特别强调了深度方法。MBRL方法利用环境模型来做出决策,而不是将环境视为一个黑匣子,并提供了超越无模型RL的独特机会和挑战。教程讨论学习过渡和奖励模型的方法,这些模型可以有效地用于做出更好的决策的方式,以及规划和学习之间的关系。作者还强调了世界模型在典型RL设置之外的利用方式,以及在设计未来MBRL系统时,从人类认知中可以得出什么见解。通过该教程你可以获得:阅读和跟进有关该主题的文献的数学背景;对所涉及的算法有直观的理解;意识到应用基于模型的方法所涉及的权衡和挑战;赞赏可以应用基于模型的推理的问题的多样性;了解这些方法如何适应更广泛的强化学习和决策理论以及与无模型方法的关系。

讲座链接:https://sites.google.com/view/mbrl-tutorial

阅读详情

如果你正在从事或关注强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

学习前沿知识、求解疑难困惑

分享经验心得、展示风貌才华

参与专属活动、结识研究伙伴

 

请扫描下方二维码加入。 备注:“姓名+单位+强化学习”才会验证进群哦。