《强化学习周刊》第71期：ICAPS2023强化学习论文推荐、Meta:通过将语言模型与战略推理相结合，在外交游戏中发挥人的水平

关于周刊：

关于周刊订阅：

告诉大家一个好消息，《强化学习周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“强化学习周刊”（如下图），进入“强化学习周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《强化学习周刊》订阅啦，以后智源社区会自动向您推送最新版的《强化学习周刊》！

导语：

强化学习作为人工智能领域研究热点之一，其在人工智能领域以及学科交叉研究中的突出表现，引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯，智源社区结合以前工作基础及读者反馈，在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块，撰写为第71期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、小胖）

导读

强化学习已经成为人工智能研究领域的热点，其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块，本周论文推荐板块为读者梳理了ICAPS 2023的7篇强化学习相关研究论文，其中涉及到世界价值函数：学习和规划的知识表示、Atari的基于宽度的规划和主动学习、将启发式视为密集的奖励生成器、可验证和组合式强化学习系统、部分信息下的任务引导逆强化学习等；科研资讯为读者分享来自Meta的AI模型，该模型通过将语言模型与战略推理相结合，在外交游戏中发挥人的水平。课程推荐模块为大家推荐由阿尔伯塔大学Martha White教授开设在 Coursera 网站的免费课程，成功完成本教程后，您将了解现代概率人工智能的基础并解决实际问题。

论文推荐

国际自动化计划与调度会议（ICAPS，International Conference on Automated Planning and Scheduling）是交流有关智能和自动化计划和调度技术的理论和应用的新闻和研究成果的首要论坛。经过三年的线上活动，ICAPS 2023将再次成为一次线下会议。ICAPS 2023将于2023年7月8日至13日在捷克共和国布拉格举行。

标题：World Value Functions: Knowledge Representation for Learning and Planning（University of the Witwatersrand:Geraud Nangue Tasse | 世界价值函数：学习和规划的知识表示）

简介：文提出了世界价值函数（WVFs），一种面向目标的通用价值函数，它不仅表示如何解决给定的任务，还表示如何解决代理环境中的任何其他目标达成任务。这是通过为智能体配置一个内部目标空间来实现的，该目标空间定义为其经历最终过渡的所有世界国家。然后，智能体可以修改标准任务奖励，以定义自己的奖励函数，这可以证明驱动它学习如何实现所有可达到的内部目标，以及在当前任务中这样做的价值。并在学习和规划方面展示了WVF的两个关键优势。特别是，给定学习的WVF，代理可以通过简单地估计任务的奖励函数来计算新任务中的最优策略。此外，还表明，WVF还隐式地编码环境的过渡动态，因此可以用于执行规划。实验结果表明，WVF可以比常规值函数更快地学习，而其推断环境动态的能力可以用于集成学习和规划方法，以进一步提高样本效率。

论文链接：https://arxiv.org/pdf/2206.11940.pdf

阅读详情

标题：GoalNet: Inferring Conjunctive Goal Predicates from Human Plan Demonstrations for Robot Instruction Following（Imperial College London:Shreshth Tuli | GoalNet：基于机器人指令跟随的人类计划演示中推断联合目标谓词）

简介：本文的目标是让机器人学习如何根据人类合作伙伴的成功演示，对其动作进行排序，以执行指定为自然语言指令的任务。计划高级任务的能力可以被分解为（i）推断特定的目标谓词，这些谓词表征给定世界状态的语言指令所暗示的任务，以及（ii）利用这些谓词合成可行的达到目标的动作序列。对于前者，利用神经网络预测模型，而对于后者使用符号规划器，引入了一种新的神经符号模型GoalNet，用于从人类演示和语言任务描述中对目标谓词进行上下文和任务相关推理。GoalNet结合了（i）学习和（ii）规划，其中通过符号规划器的因果建模避免了不相关的谓词，从而促进了大领域中的多阶段决策。GoalNet在显示语言变化的基准数据集上，与最先进的基于规则的方法相比，任务完成率显著提高（51%），尤其是对于多级指令。

论文链接：https://arxiv.org/pdf/2205.07081.pdf

阅读详情

标题：Is Policy Learning Overrated?: Width-Based Planning and Active Learning for Atari（MIT-IBM Watson AI Lab:Masataro Asai | 策略学习是否过度？：Atari的基于宽度的规划和主动学习）

简介：基于宽度的规划在使用像素输入的Atari 2600游戏上显示了很有希望的结果，同时使用的环境交互比强化学习少得多。最近的基于宽度的方法已经使用手工设计的特征集或在游戏屏幕上训练的变分自动编码器（VAE-IW）来计算每个屏幕的特征向量，并在搜索期间修剪不具有新颖特征的屏幕。本文提出了Olive（在线VAE IW），它使用主动学习在线更新VAE功能，以最大化规划期间观察到的屏幕的效用。在55场Atari游戏中的实验结果表明，它比Rollout IW的表现要好42-11，比VAE-IW的成绩要好32-20。此外，Olive比基于策略学习（π-IW，DQN）的现有工作要好30-22和31-17，以及最先进的数据高效强化学习（EfficientZero），使用相同的训练预算进行训练，并在Atari 100k基准测试中以1.8倍的计划预算运行，完全没有策略学习。

论文链接：https://arxiv.org/pdf/2109.15310.pdf

阅读详情

标题：Reinforcement Learning for Classical Planning: Viewing Heuristics as Dense Reward Generators（MIT-IBM Watson AI Lab:Masataro Asai | 经典规划的强化学习：将启发式视为密集的奖励生成器）

简介：强化学习（RL）的最新进展导致人们对将RL应用于经典规划领域或将经典规划方法应用于一些复杂的RL领域越来越感兴趣。然而，在经典规划中发现的基于长期目标的问题导致RL的回报很少，使得直接应用效率低下。本文提出利用经典规划文献中常用的领域无关启发式函数来提高RL的样本效率。这些经典启发式算法充当密集奖励生成器，以缓解稀疏奖励问题，并使RL智能体能够学习域特定值函数作为这些启发式算法的残差，从而使学习更容易。正确应用此技术需要合并RL中使用的折扣度量和启发式中使用的非折扣度量。通过使用神经逻辑机器（Neural Logic Machines）实现值函数，这是一种为接地一阶逻辑输入设计的神经网络架构。最后在几个经典规划域上证明，与稀疏奖励RL相比，使用经典启发式方法进行RL可以获得良好的样本效率。并进一步证明，该学习值函数推广到同一领域中的新问题实例。

论文链接：https://arxiv.org/pdf/2109.14830v2.pdf

阅读详情

标题：Beyond Value: CHECKLIST for Testing Inferences in Planning-Based RL（俄勒冈州立大学: Kin-Ho Lam|超越价值：在基于计划的 RL 中测试推理的清单）

简介：强化学习 (RL) 智能体通常通过其在测试场景分布上的预期值进行评估。然而这种评估方法为超出测试分布的部署后泛化提供了有限的证据。本文通过将最近的 CheckList 测试方法从自然语言处理扩展到基于计划的 RL 来解决这个限制。本文考虑使用学习的转换模型和价值函数测试通过在线树搜索做出决策的 RL 智能体。关键思想是通过 CheckList 方法改进对未来性能的评估，以在树搜索期间探索和评估智能体的推理。该方法为用户提供了一个界面和通用查询规则机制，用于识别潜在的推理缺陷和验证预期的推理不变性。本文展示了一项研究使用该方法评估受过训练以玩复杂实时策略游戏的智能体。结果表明，该方法在允许用户识别智能体推理中以前未知的缺陷方面是有效的，这可能有助于改进未来的实例化。

论文链接：https://arxiv.org/pdf/2206.02039.pdf

阅读详情

标题：Verifiable and Compositional Reinforcement Learning Systems（德克萨斯大学奥斯汀分校: Cyrus Neary|可验证和组合式强化学习系统）

简介：本文提出了一个用于可验证和组合强化学习 (RL) 的新框架，其中一组 RL 子系统，每个子系统都学习完成一个单独的子任务，以实现整体任务。该框架由一个高级模型组成，表示为参数马尔可夫决策过程 (pMDP)，用于规划和分析子系统的组成，以及低级子系统本身的集合。通过定义子系统之间的接口，该框架实现了任务规范的自动分解，例如，以至少 0.95 的概率达到目标状态集，到单独的子任务规范中，即实现子系统的退出条件鉴于满足其进入条件，至少有一些最小概率。这反过来又允许对子系统进行独立的培训和测试；如果他们每个人都学习了满足适当子任务规范的策略，那么他们的组合就可以保证满足整个任务规范。相反，如果学习策略不能完全满足子任务规范，本文提出一种方法，公式化为在 pMDP 中找到一组最佳参数的问题，以自动更新子任务规范以说明观察到的缺点。结果是定义子任务规范和训练子系统以满足它们的迭代过程。作为一个额外的好处，这个过程允许在训练期间自动确定和关注整个任务中特别具有挑战性或重要的组成部分。

论文链接：https://arxiv.org/pdf/2106.05864.pdf

阅读详情

标题：Task-Guided Inverse Reinforcement Learning Under Partial Information（德克萨斯大学奥斯汀分校: Franck Djeumou|部分信息下的任务引导逆强化学习）

简介：本文研究了逆强化学习 (IRL) 的问题，其中学习智能体使用专家演示来恢复奖励函数。大多数现有的 IRL 技术常常做出不切实际的假设，即智能体可以访问有关环境的完整信息。本文通过在部分可观察马尔可夫决策过程 (POMDP) 中开发 IRL 算法来消除这一假设，其中智能体无法直接观察 POMDP 的当前状态。该算法解决了现有技术的几个限制，这些限制没有考虑专家和智能体之间的信息不对称。首先，它采用因果熵作为专家演示可能性的度量，并避免了算法复杂性的常见来源。第二，它将时间逻辑中表达的任务规范合并到 IRL 中。除了演示之外，这种规范可以被解释为学习者先验可用的辅助信息，并且可以减少专家和智能体之间的信息不对称。本文通过顺序凸编程解决了非凸性问题，并引入了几种扩展以可扩展的方式解决前向问题。

论文链接：https://arxiv.org/pdf/2105.14073.pdf

阅读详情

科研资讯

标题：Meta：Human-level play in the game of Diplomacy by combining language models with strategic reasoning（Meta:通过将语言模型与战略推理相结合，在外交游戏中发挥人的水平）

简介：尽管在训练人工智能（AI）系统模仿人类语言方面取得了很大进展，但在交互环境中使用语言与人类进行有意交流的建筑代理仍然是一个主要挑战。该论文介绍了西塞罗（Cicero），他是第一个在《外交》（Diplomacy）中实现人类水平表现的人工智能代理，这是一个涉及合作和竞争的战略游戏，强调七个玩家之间的自然语言谈判和战术协调。Cicero将语言模型与规划和强化学习算法相结合，通过从对话中推断玩家的信念和意图，并根据其计划生成对话。在一个匿名的在线外交联盟的40场比赛中，西塞罗的平均得分是人类选手的两倍多，在超过一场比赛的参与者中排名前10%。

资讯链接：https://www.science.org/doi/10.1126/science.ade9097

阅读详情

教程推荐

标题：Coursera 强化学习专项课程

简介：本课程是由阿尔伯塔大学Martha White教授开设在 Coursera 网站的免费课程，在本课程中，您将学习强化学习解决方案如何在试错交互的帮助下解决实际问题，以及如何从头开始实施完整的强化学习解决方案。成功完成本教程后，您将了解现代概率人工智能的基础并解决实际问题。

教程链接：https://www.coursera.org/specializations/reinforcement-learning

阅读详情

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑

分享经验心得、展示风貌才华

参与专属活动、结识研究伙伴

请扫描下方二维码加入。备注：“姓名+单位+强化学习”才会验证进群哦。