《强化学习周刊》第68期：ICLR2023强化学习论文、谷歌乒乓球机器人、订阅赠书《Easy RL强化学习教程》

关于周刊：

关于周刊订阅：

告诉大家一个好消息，《强化学习周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“强化学习周刊”（如下图），进入“强化学习周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《强化学习周刊》订阅啦，以后智源社区会自动向您推送最新版的《强化学习周刊》！

导语：

强化学习作为人工智能领域研究热点之一，其在人工智能领域以及学科交叉研究中的突出表现，引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯，智源社区结合以前工作基础及读者反馈，在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块，撰写为第68期《强化学习周刊》以飨诸位。

本期周刊共分四个板块，本周论文推荐板块为读者梳理了ICLR 2023的9篇强化学习相关研究论文，其中涉及到基于模型的强化学习的深入探索、通过认知不确定性估计提高样本效率、过扰动奖励证明有效的神经离线强化学习等；科研资讯为读者分享来自谷歌研究利用乒乓球这一速度和精度双重要求很高的运动来进行训练机器人交互和强化学习的研究；招聘版块为大家介绍来自之江实验室长期招聘；教程推荐板块为大家分享来自 Kaggle 的强化学习基础教程《游戏AI和强化学习入门》，带领读者从基础的强化学习智能体开始学习，一直到深度强化学习。

为回馈读者的支持，我们继续推出赠书活动，凡是订阅《强化学习周刊》并转发本期周刊内容（Hub网页版、微信版均可）到朋友圈的前5名读者，都可以免费得到EASYRL强化学习案例与实践（蘑菇书）。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、小胖）

论文推荐

第十一届学习表征国际会议(ICLR2023)于2023年5月1日星期一至5日星期五在卢旺达的首都基加利举行。

标题：Planning with Uncertainty: Deep Exploration in Model-Based Reinforcement Learning(代尔夫特理工大学:Wendelin Böhmer | 具有不确定性的规划：基于模型的强化学习的深入探索)

简介：基于深度模型的强化学习（RL）在许多具有挑战性的领域表现出了超强的人类性能。然而，低采样效率和有限的勘探仍然是该领域的主要障碍。本文通过将认知不确定性纳入规划树，绕过通过价值学习传播不确定性的标准方法，展示了对基于模型的RL的深入探索。通过使用最先进的基于模型的RL算法MuZero来评估该方法，并扩展其训练过程，以从明确探索的轨迹中稳定学习。实验表明具有不确定性的规划能够证明使用标准不确定性估计机制进行有效的深度勘探，并因此显著提高了样本效率。

论文链接：https://arxiv.org/pdf/2210.13455.pdf

阅读详情

标题：In-Context Policy Iteration（University of Michigan:Ethan Brooks | 上下文内策略迭代）

简介：本文提出了上下文策略迭代，一种使用基础模型在上下文中执行强化学习（RL）的算法。尽管基础模型在RL中的应用受到了相当大的关注，但大多数方法依赖于（1）专家演示的策划（通过手动设计或任务特定的预训练）或（2）使用梯度方法（微调或训练适配器层）来适应感兴趣的任务。这两种技术都有缺点。收集演示是劳动密集型的，依赖于这些演示的算法并不能胜过生成演示的专家。所有的梯度技术都是固有的缓慢，牺牲了“少数镜头”的质量，这使得情境学习一开始就很有吸引力。本文提出了ICPI算法，它学习在没有专家演示或梯度的情况下执行RL任务。相反，策略迭代方法，其中提示内容是整个学习的中心。ICPI迭代更新提示的内容，通过与RL环境的试错交互，ICPI从提示中导出其策略。为了消除权重学习（决策变压器等方法严重依赖于权重学习）的作用，通过使用Codex演示了该算法，Codex是一种语言模型，没有评估它的领域的先验知识。

论文链接：https://arxiv.org/ftp/arxiv/papers/2210/2210.03821.pdf

阅读详情

标题：Query The Agent: Improving sample efficiency through epistemic uncertainty estimation（MIT CSAIL:Julian Alverio | 查询Agent：通过认知不确定性估计提高样本效率）

简介：目标条件强化学习智能体的课程通常依赖于对智能体认知不确定性的较差估计，或者未能完全考虑智能体认知不确定，从而导致样本效率较差。本文提出了新算法，即查询Agent（QTA），该算法通过估计整个状态空间中Agent的认知不确定性并在高度不确定的区域中设置目标，显著提高了样本效率。鼓励智能体在高度不确定的状态下收集数据允许智能体快速改进其对价值函数的估计。QTA利用一种新的估计认知不确定性的技术，即预测不确定性网络（PUN），允许QTA在所有先前观察到的状态下评估主体的不确定性。研究表明，与现有方法相比，QTA提供了决定性的样本效率改进。

论文链接：https://arxiv.org/pdf/2210.02585.pdf

阅读详情

标题：DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated and Musculoskeletal Systems（马克斯•普朗克研究所: Pierre Schumacher|DEP-RL：过度驱动和肌肉骨骼系统中强化学习的具体探索）

简介：肌肉驱动的生物体尽管肌肉数量庞大，但仍能够学习无与伦比的灵巧多样的运动。然而，大型肌肉骨骼模型上的强化学习（RL）尚未能够显示出类似的表现。本文推测，在大型过度驱动动作空间中的无效探索是一个关键问题。这得到了以下发现的支持：在过度驱动系统的合成示例中，常见的探索噪声策略是不够的。本文确定了差异外征可塑性（DEP），这是一种属于自组织领域的方法，因为能够在交互的几秒钟内引发状态空间覆盖探索。通过将 DEP 集成到 RL 中，本研究实现了快速学习肌肉骨骼系统中的伸展和运动，在样品效率和稳定性方面在所有考虑的任务中优于当前方法。

论文链接：https://arxiv.org/pdf/2206.00484.pdf

阅读详情

标题：Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning（Meta AI: Anton Bakhtin|通过人类规范化的强化学习和规划掌握无新闻外交游戏）

简介：无新闻外交是一个复杂的战略游戏，涉及合作和竞争，已成为多智能体人工智能研究的基准。但仅靠自我对弈不足以在涉及与人类合作的领域实现最佳性能。本文通过首先引入一种称为 DiL-piKL 的计划算法来解决这个缺点，该算法将奖励最大化策略规范化为人类模仿学习的策略。本文证明这是一个修改效用函数下的无悔学习算法。然后，本文展示了 DiL-piKL 可以扩展到被称之为 RL-DiL-piKL 的自我游戏强化学习算法，它提供了人类游戏模型，同时训练了一个能很好地响应这个人类模型的智能体。本文使用 RL-DiL-piKL 来训练命名为梁龙的智能体。在一场 200 场比赛的无新闻外交锦标赛中，两名梁龙特工的平均得分均高于所有其他参加两场以上比赛的参与者，并根据一项排名第一和第三Elo 评级模型。

论文链接：https://arxiv.org/pdf/2210.05492.pdf

阅读详情

标题：Provably Efficient Neural Offline Reinforcement Learning via Perturbed Rewards（过扰动奖励证明有效的神经离线强化学习）

简介：本文提出了一种新的离线强化学习（RL）算法，即扰动奖励的价值迭代（VIPeR），它将随机化的价值函数思想与悲观主义原则结合起来。目前大多数离线RL算法明确地构建统计置信区，通过置信下限（LCB）获得悲观主义，这不容易扩展到使用神经网络来估计价值函数的复杂问题。相反，VIPeR通过简单地用精心设计的i.i.d高斯噪声对离线数据进行多次扰动，以学习一个估计状态动作值的集合，并贪婪地作用于该集合的最小值，从而隐含地获得悲观主义。估计的状态动作值是通过使用梯度下降法将参数模型（如神经网络）拟合到被扰动的数据集上获得的。因此，VIPeR的动作选择只需要O(1)的时间复杂度，而基于LCB的算法至少需要Ω(K2)，其中K是离线数据中轨迹的总数。本文还提出了一种新的数据分割技术，有助于消除学习约束中潜在的大对数覆盖数。

论文链接：https://openreview.net/pdf?id=WOquZTLCBO1

阅读详情

标题：A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning（加利福尼亚大学: Zixiang Chen|强化学习中样本有效函数逼近的通用框架）

简介：随着对处理大的状态和动作空间的需求的增加，一般函数逼近已成为强化学习（RL）中的一项关键技术。本文提出了一个统一基于模型和无模型RL的通用框架，以及一个可接受的Bellman表征（ABC）类，该类包含了文献中关于可处理RL的几乎所有Markov决策过程（MDP）模型。作者提出了一种新的具有可分解结构性质的估计函数，用于基于优化的探索，并将函数回避维数作为ABC类的复杂性度量。在本文的框架下，作者提出了一种新的样本有效算法，即基于OPtimization的ExploRation with Approximation（OPERA），实现了与各种MDP模型的最著名结果相匹配或改进的遗憾边界。特别是，对于见证级别较低的MDP，在稍强的假设下，OPERA将最先进的样本复杂性结果提高了dH倍。

论文链接：https://arxiv.org/pdf/2209.15634.pdf

阅读详情

标题：The In-Sample Softmax for Offline Reinforcement Learning（用于离线强化学习的样本内 Softmax）

简介：强化学习 (RL) 智能体可以利用以前收集的成批数据来提取合理的控制策略。然而，在这种离线 RL 设置中出现的一个新问题是，作为许多方法基础的引导更新存在动作覆盖不足的问题：标准最大运算符可能会选择数据集中未见的最大动作。从这些不准确的值中引导可能会导致高估甚至分歧。越来越多的方法试图逼近样本内最大值，这些方法仅使用数据集覆盖良好的动作。本文强调一个简单的事实：仅使用数据集中的动作来近似样本内 softmax 更为直接。作者表明基于样本内 softmax 的策略迭代收敛，并且对于降低温度它接近样本内最大值。本文使用这个样本内 softmax 推导出一个样本内 Actor-Critic (AC)，并表明它始终优于现有的离线 RL 方法或与现有的离线 RL 方法相当，并且也非常适合微调。

论文链接：https://openreview.net/pdf?id=u-RuvyDYqCM

阅读详情

标题：Offline Q-learning on Diverse Multi-Task Data Both Scales And Generalizes（多种多任务数据的可扩展和泛化离线 Q 学习）

简介：离线强化学习 (RL) 的潜力在于，在大型异构数据集上训练的高容量模型可以产生广泛泛化的智能体。然而，最近的研究表明，离线强化学习方法在扩大模型容量方面遇到了独特的挑战。借鉴这些工作的经验，作者重新审视了以前的设计选择，并发现通过适当的选择：ResNet、基于交叉熵的分布式备份和特征归一化，离线 Q 学习算法表现出随模型容量扩展的强大性能。与之前的工作相比，即使完全在大型但非常次优的数据集上进行训练（51%的人类水平的性能），也可以推断出数据集的性能。与返回条件监督方法相比，离线 Q-learning 与模型容量的比例相似并且具有更好的性能，尤其是当数据集不是最优的时候。最后，作者表明，具有多样化数据集的离线 Q 学习足以学习强大的表示。

论文链接：https://openreview.net/pdf?id=4-k7kUavAj

阅读详情

科研资讯

标题：谷歌利用真实世界的高速乒乓球强化机器人

简介：为将机器人学习应用需要紧密循环的动态、高速人机交互任务中，谷歌研究利用乒乓球这一速度和精度双重要求很高的运动来进行训练机器人交互和强化学习的研究。在现实世界中学习目标条件控制是机器人技术中一个具有挑战性的开放问题。强化学习系统有可能通过试错法自主学习，但在实践中，手动奖励设计、确保安全探索和超参数调整的成本通常足以阻止现实世界的部署。另一方面，模仿学习方法提供了一种在现实世界中学习控制的简单方法，但通常需要昂贵的策划演示数据，并且缺乏持续改进的机制。谷歌研究团队发现，迭代模仿学习可以在动态环境中扩展到真实机器人上的目标导向行为：高速、精确的乒乓球。研究人员发现这种方法提供了一种直接的方式来进行持续的机器人学习，而没有奖励设计或模拟到真实的迁移等复杂性，同时它也是可扩展的——样本效率足以在几个小时内训练一个物理机器人。

资讯链接：https://arxiv.org/pdf/2210.03662.pdf

阅读详情

相关招聘

标题：之江实验室长期招聘(强化学习方向算法工程师、实习生)

简介：之江实验室由浙江省人民政府、浙江大学、阿里巴巴集团共同举办，以国家目标和战略需求为导向，建设世界一流新型研发机构。本次招聘岗位职责：在强化学习、多智能体强化学习、群体智能、博弈论等领域开展前沿技术研究；不完全信息和不确定性环境下的高性能博弈&决策算法研究和应用；完成相关算法的开发和测试工作；主导或参与相关paper和专利的撰写。

任职要求：（在读）硕士研究生及以上学历，计算机、自动化、人工智能、控制理论等相关专业；在强化学习、多智能体强化学习等领域有较好的理论基础，具有一定学术视野和独立创新能力；有强化学习项目（含开源项目）经验，至少熟悉两种强化学习算法的调参技巧，能够快速实现和验证新想法；熟练掌握Python编程，熟悉Pytorch、TensorFlow 和 Caffe等主流AI框架；有良好的沟通表达能力和团队协作精神，有浓厚的科研兴趣和学习热情。有意者投递简历至邮箱：weining@zhejianglab.com

招聘链接：https://www.zhejianglab.com/html/aboutus/

阅读详情

教程推荐

标题：游戏AI和强化学习入门

简介：《游戏AI和强化学习入门》是来自 Kaggle 的强化学习基础教程，本教程通过4小节 Jupyter Notebook 教程，带领读者从基础的强化学习智能体开始学习，一直到深度强化学习，并且学习过程中可以借助 Kaggle 提供的运行环境直接运行所学代码。

教程链接：https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning

阅读详情

订阅赠书

图书标题：Easy RL强化学习教程（蘑菇书）

简介：本教程被称为“蘑菇书”，寓意是希望此书能够为读者注入活力，让读者“吃”下这本蘑菇之后，能够饶有兴致地探索强化学习，像马里奥那样愈加强大，继而在人工智能领域觅得意外的收获。本教程内容主要整理自强化学习领域经典的中文视频之一——李宏毅老师的《深度强化学习》，同时整合了周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说非常值得推荐的。