关于周刊:

关于周刊订阅:

告诉大家一个好消息,《强化学习周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

1,注册智源社区账号

2,点击周刊界面左上角的作者栏部分“强化学习周刊”(如下图),进入“强化学习周刊”主页。  

3,点击“关注TA”(如下图)

4,您已经完成《强化学习周刊》订阅啦,以后智源社区会自动向您推送最新版的《强化学习周刊》!

导语:

强化学习作为人工智能领域研究热点之一,其在人工智能领域以及学科交叉研究中的突出表现,引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯,智源社区结合以前工作基础及读者反馈,在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块,撰写为第74期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:(李明,刘青、小胖)

导读

强化学习已经成为人工智能研究领域的热点,其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块,论文推荐板块为读者梳理了AAAI2023会议的10篇强化学习相关研究论文;科研资讯为DeepMind推出世界模型通用算法DreamerV3;本次招聘版块为大家介绍来自商汤-智慧城市招聘强化学习见习研究员/正式研究员反事实强化学习代码实现;本次教程推荐板块为大家分享反事实强化学习代码实现,本篇文章是对“基于强化学习的模型不可知和可扩展的反事实解释”基于TensorFlow实现的详细介绍,并且此方法可以为任何黑盒模型生成反事实实例。

AAAI系列会议的目的是促进人工智能(AI)的研究,促进整个AI及其附属学科的研究人员、从业者、科学家、学生和工程师之间的科学交流。AAAI-23是第三十七届AAAI人工智能会议。本次会议的主题是在人工智能内部和外部建立协作桥梁。本次论文推荐了AAAI2023会议的10篇论文,涉及领域有POMDP安全策略改进、基于 STL 的反馈控制器综合、强化学习中零样本传输的超网络、具有多项式逻辑函数逼近的基于模型的强化学习、逆强化学习中的错误指定等。

标题:Safe Policy Improvement for POMDPs via Finite-State Controllers(基于有限状态控制器的POMDP安全策略改进)

简介:论文研究了部分可观察马尔可夫决策过程(POMDP)的安全策略改进(SPI)。SPI是一个离线强化学习(RL)问题,它假设访问(1)关于环境的历史数据,以及(2)先前通过与环境交互生成该数据的所谓行为策略。SPI方法既不需要访问模型也不需要访问环境本身,其目的是以离线方式可靠地改进行为策略。现有方法强烈假设环境是完全可观察的。在针对POMDP的SPI问题的新方法中,本文假设有限状态控制器(FSC)表示行为策略,并且有限内存足以导出最优策略。这个假设允许将POMDP映射到有限状态完全可观察的MDP,即历史MDP。论文通过结合历史数据和FSC的内存来估计这个MDP,并使用现成的SPI算法来计算改进的策略。底层SPI方法根据可用数据约束策略空间,使得新计算的策略仅在足够数据可用时与行为策略不同。我们表明,这一新策略,转化为(未知)POMDP的新FSC,以高概率优于行为策略。在几个成熟的基准测试上的实验结果表明了该方法的适用性,即使在有限内存不足的情况下也是如此

论文链接:https://arxiv.org/pdf/2301.04939.pdf

阅读详情

标题:Adaptive Risk-Aware Bidding with Budget Constraint in Display Advertising(显示广告中具有预算约束的自适应风险意识投标)

简介:实时竞价(RTB)已经成为展示广告的一种主要模式。实时拍卖用户访问产生的每个广告印象,其中需求侧平台(DSP)通常根据广告印象值估计和最优出价确定自动提供出价。然而,当前的出价策略忽略了用户行为(例如,点击)的巨大随机性以及拍卖竞争导致的成本不确定性。在这项工作中,论文明确考虑了估计广告印象值的不确定性,并通过顺序决策过程对特定状态和市场环境下DSP的风险偏好进行建模。具体而言,论文通过强化学习提出了一种新的具有预算约束的自适应风险感知投标算法,该算法首次同时考虑了DSP的估计不确定性和动态风险趋势。论文从理论上揭示了基于风险价值(VaR)的不确定性与风险趋势之间的内在关系。因此,提出了两种建模风险趋势的实例,包括包含三个基本属性的基于专家的公式和基于自我监督强化学习的自适应学习方法。论文在公共数据集上进行了广泛的实验,并表明所提出的框架在实际环境中优于最先进的方法。

论文链接:https://arxiv.org/pdf/2212.12533.pdf

阅读详情

标题:Utilizing Prior Solutions for Reward Shaping and Composition in Entropy-Regularized Reinforcement Learning(麻省大学波士顿分校: Jacob Adamczyk|在熵正则化强化学习中利用先验解决方案进行奖励整形和组合)

简介:在强化学习 (RL) 中,利用先前解决的任务中先验知识的能力可以让智能体快速解决新问题。在某些情况下,这些新问题可以通过组合先前已解决的原始任务(任务组合)的解决方案来近似解决。另外,可以使用先验知识来调整新问题的奖励函数(奖励塑造),其方式是保持最佳策略不变但可以更快地学习。本文为熵正则化 RL 中的奖励塑造和任务组合开发了一个通用框架。为此,本文推导出了一个精确的关系,用于连接两个具有不同奖励函数和动态的熵正则化 RL 问题的最佳软值函数。本文验证了派生关系如何导致熵正则化 RL 中奖励整形的一般结果。然后,将这种方法推广到一个精确的关系,以连接熵正则化 RL 中多个任务组合的最佳价值函数。本文通过实验验证了这些理论贡献,表明奖励塑造和任务组合导致在各种设置中更快地学习。

论文链接:https://arxiv.org/pdf/2212.01174.pdf

阅读详情

标题:STL-Based Synthesis of Feedback Controllers Using Reinforcement Learning(麻省大学波士顿分校: Nikhil Kumar Singh|使用强化学习的基于 STL 的反馈控制器综合)

简介:深度强化学习 (DRL) 有可能用于为具有未知动态的各种复杂系统合成反馈控制器(智能体)。这些系统有望满足使用时序逻辑最好地捕获的各种安全性和活性属性。在 RL 中,奖励函数在指定这些智能体的期望行为方面起着至关重要的作用。然而,为 RL 智能体设计奖励函数以满足复杂时序逻辑规范的问题在文献中受到的关注有限。为了解决这个问题,本文提供了一种通过使用信号时间逻辑 (STL) 的定量语义来实时生成奖励的系统方法,STL 是一种广泛使用的时间逻辑,用于指定网络物理系统的行为。本研究为具有几个理想属性的 STL 提出了一种新的定量语义,使其适合奖励生成。本文在几个复杂的连续控制基准上评估此基于 STL 的强化学习机制,实验结果表明新语义最适合通过强化学习为复杂的连续动力系统合成反馈控制器。

论文链接:https://arxiv.org/pdf/2212.01022.pdf

阅读详情

标题:Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning(京都大学: Guoxi Zhang|基于多源数据的离线强化学习行为估计)

简介:离线强化学习 (RL) 由于其吸引人的数据效率而受到越来越多的关注。本研究涉及行为估计,这是一项为许多离线 RL 算法奠定基础的任务。行为估计旨在估计生成训练数据的策略。特别是,这项工作考虑了从多个来源收集数据的场景。在这种情况下,忽略数据异质性,现有的行为估计方法会受到行为错误指定的影响。为了克服这个缺点,本研究提出了一个潜在变量模型来从数据中推断出一组策略,这允许代理将最能描述特定轨迹的策略用作行为策略。该模型为多源数据提供智能体细粒度表征,并帮助它克服行为错误指定。这项工作还为该模型提出了一种学习算法,并通过扩展现有的离线 RL 算法来说明其实际用法。最后,通过广泛的评估,这项工作证实了行为错误规范的存在和所提出模型的有效性。

论文链接:https://arxiv.org/pdf/2211.16078.pdf

阅读详情

标题:Hypernetworks for Zero-shot Transfer in Reinforcement Learning(麦吉尔大学&Mila-Quebec人工智能研究所: Sahand Rezaei-Shoshtari|强化学习中零样本传输的超网络)

简介:在本文中,通过基于 TD 的新型训练目标和来自训练任务的一组近乎最优的 RL 解决方案的数据,训练超网络在一系列看不见的任务条件下生成行为。这项工作涉及元 RL、上下文 RL 和迁移学习,特别关注测试时的零样本性能,这是通过了解任务参数(也称为上下文)实现的。本文的技术方法是基于将每个 RL 算法视为从 MDP 细节到接近最优值函数和策略的映射,并寻求使用可以生成接近最优值函数和策略的超网络来近似它,给定参数MDP。本文表明,在某些条件下,这种映射可以被视为监督学习问题。文中凭经验评估了此方法在 DeepMind Control Suite 的一系列连续控制任务上零样本迁移到新奖励和转换动态的有效性。本文的方法展示了多任务和元 RL 方法对基线的显著改进。

论文链接:https://arxiv.org/pdf/2211.15457.pdf

阅读详情

标题:On the Challenges of using Reinforcement Learning in Precision Drug Dosing: Delay and Prolongedness of Action Effects(麦吉尔大学: Sumana Basu|在精确给药中使用强化学习的挑战:行动效果的延迟和延长)

简介:药物剂量是 AI 的一个重要应用,可以表述为强化学习 (RL) 问题。 本文确定了将 RL 用于药物剂量的两个主要挑战:给药的延迟和延长效果,这打破了 RL 框架的马尔可夫假设。 本文专注于延长性并定义 PAE-POMDP(延长的行动效果 - 部分可观察的马尔可夫决策过程)。 受药理学文献的启发,作者提出了一种简单有效的方法将药物剂量 PAE-POMDPs 转换为 MDPs,从而能够使用现有的 RL 算法来解决此类问题。 本文在试验任务和一个具有挑战性的葡萄糖控制任务上验证了所提出的方法。 结果表明:(1) 所提出的恢复马尔可夫假设的方法比普通基线有显着改进; (2) 该方法与可能固有地捕获行动的长期影响的经常性策略相比具有竞争力; (3) 它比循环基线具有更高的时间和内存效率,因此更适合实时剂量控制系统; (4) 它在策略分析中表现出有利的定性行为。

论文链接:https://arxiv.org/pdf/2301.00512.pdf

阅读详情

标题:Model-Based Reinforcement Learning with Multinomial Logistic Function Approximation(首尔国立大学: Taehyun Hwang|具有多项式逻辑函数逼近的基于模型的强化学习)

简介:本文研究了情景马尔可夫决策过程(MDP)的基于模型的强化学习(RL),其转移概率由具有状态和动作特征的未知转移核参数化。尽管最近在分析线性MDP设置中的算法方面取得了很大进展,但对更一般的过渡模型的理解非常有限。在本文中,作者为状态转移由多项式逻辑模型给出的MDP建立了一个可证明有效的RL算法。为了平衡勘探与开发的权衡,作者提出了一种基于置信上限的算法。文章表明,作者提出的算法实现了O~(dH3T−−−√)遗憾界限,其中d是过渡核的维度,H是视界,T是总步数。这是第一个基于模型的RL算法,具有多项式逻辑函数逼近和可证明保证。本文还对提出的算法进行了全面的数值评估,并表明它始终优于现有方法,从而实现了可证明的效率和实际的优越性能。

论文链接:https://arxiv.org/pdf/2212.13540.pdf

阅读详情

标题:Efficient Exploration in Resource-Restricted Reinforcement Learning(中国科学技术大学: Zhihai Wang|资源受限强化学习的有效探索)

简介:在强化学习 (RL) 的许多实际应用中,执行动作需要消耗某些类型的资源,这些资源在每一阶段中都无法补充。 典型应用包括能量有限的机器人控制和消耗品的视频游戏。 在具有不可补充资源的任务中,作者观察到流行的 RL 方法(例如 soft actor critic)样本效率低下。 主要原因是,它们往往会很快耗尽资源,因此后续的勘探由于资源的缺乏而受到严重限制。 为了应对这一挑战,本文首先将上述问题形式化为资源受限的强化学习,然后提出一种新的资源感知探索奖励 (RAEB) 以合理利用资源。 RAEB 的一个吸引人的特点是,它可以显着减少不必要的资源消耗试验,同时有效地鼓励智能体探索未访问的状态。 实验表明,所提出的 RAEB 在资源受限的强化学习环境中明显优于最先进的探索策略,将样本效率提高了一个数量级。

论文链接:https://arxiv.org/pdf/2212.06988.pdf

阅读详情

标题:Misspecification in Inverse Reinforcement Learning(牛津大学: Joar Skalse|逆强化学习中的错误指定)

简介:逆强化学习(IRL)的目的是从策略π推断奖励函数R。要做到这一点,我们需要一个π如何与R相关的模型。在当前的文献中,最常见的模型是最优性、玻尔兹曼合理性和因果熵最大化。IRL背后的主要动机之一是从人类行为中推断出人类的偏好。然而,人类偏好和人类行为之间的真实关系比目前在IRL中使用的任何模型都复杂得多。这意味着它们是错误的,这引发了人们的担忧,即如果将它们应用于真实世界数据,可能会导致不正确的推断。在本文中,作者对不同的IRL模型对错误指定的鲁棒性进行了数学分析,并准确地回答了在该模型导致关于奖励函数R的错误推断之前,演示者策略可能与每个标准模型有何不同,以及可用于容易地导出新IRL模型的误规范鲁棒性的正式工具。

论文链接:https://arxiv.org/pdf/2212.03201.pdf

阅读详情

科研资讯

标题:DeepMind推出世界模型通用算法DreamerV3

简介:目前强化学习算法具有解决许多领域任务的潜力,但由于需要调整算法以适应新任务所需的资源和知识,这种潜力受到了限制。DeepMind研究人员提出了 DreamerV3,一个通用的和可扩展的算法基于世界模型,优于以前的方法在广泛的领域与固定的超参数。这些领域包括连续和离散的动作,视觉和低维输入,2D 和3D 世界,不同的数据预算,奖励频率和奖励尺度。同时 DreamerV3具有良好的缩放性能,较大的模型直接转换为较高的数据效率和最终性能。Dreamerv3是 Minecraft 第一个在没有人类数据或课程的情况下从零开始收集钻石的算法,这是人工智能领域的一个长期挑战。DeepMind通用算法使强化学习广泛适用,并允许扩展到困难的决策问题。

资讯链接:https://arxiv.org/pdf/2301.04104.pdf

阅读详情

相关招聘

标题:商汤-智慧城市招聘强化学习见习研究员/正式研究员

团队简介:本团队为商汤-智慧城市相关业务的算法预研团队之一,主要关注强化学习技术本身,以及强化学习辅助的计算机视觉技术。团队成员主要来自港中文、北大、中科院、中科大、复旦以及其它国内外知名高校的博士/硕士。团队十分重视强化学习的技术预研和真实落地,每年都会发表多篇顶会论文。

工作职责:1.参与城市-智慧交通领域真实任务的强化学习算法预研、优化及落地,包括但不限于:视频、摄像头、信号灯、供应链等相关场景优化;2.鼓励创新,可提出自己感兴趣并适合强化学习的其他任务定义,给出方案及实验结论;3.紧跟强化学习领域的学术进展,输出创新研究成果,推动前沿研究发展;4.在导师指导下撰写方案代码、论文、专利等,将方案在实际问题中尝试并给出结论。

岗位要求:1.计算机相关专业硕士或博士,对于深度学习、强化学习有基础了解;2.熟练使用Pytorch或Tensorflow;3.实习五个月,每周至少三天。可将简历投递至hy.mao@pku.edu.cn。

招聘链接:https://zhuanlan.zhihu.com/p/595821650?utm_source=wechat_session&utm_medium=social&s_r=0

阅读详情

教程推荐

标题:反事实强化学习代码实现

简介:本篇文章是对“基于强化学习的模型不可知和可扩展的反事实解释”基于TensorFlow实现的详细介绍,并且此方法可以为任何黑盒模型生成反事实实例。反事实实例是一个强大的工具,可以获得对自动化决策过程的宝贵见解,描述输入空间中必要的最小变化,以将预测更改为期望的目标。Robert-Florian Samoilescu等人提出了一种深度强化学习方法,该方法将优化过程转化为端到端的可学习过程,允许在一次前向传递中生成一批反事实实例。

教程链接:https://docs.seldon.io/projects/alibi/en/latest/examples/cfrl_adult.html

阅读详情

如果你正在从事或关注强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

学习前沿知识、求解疑难困惑

分享经验心得、展示风貌才华

参与专属活动、结识研究伙伴

 

请扫描下方二维码加入。 备注:“姓名+单位+强化学习”才会验证进群哦。