《强化学习周刊》第65期：Neurips2022强化学习论文推荐（5）、MIT：机器狗当守门员、青源Workshop具身智能与机器人研讨会

关于周刊：

关于周刊订阅：

告诉大家一个好消息，《强化学习周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“强化学习周刊”（如下图），进入“强化学习周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《强化学习周刊》订阅啦，以后智源社区会自动向您推送最新版的《强化学习周刊》！

导语：

强化学习作为人工智能领域研究热点之一，其在人工智能领域以及学科交叉研究中的突出表现，引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯，智源社区结合以前工作基础及读者反馈，在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块，撰写为第65期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、小胖）

导读

强化学习已经成为人工智能研究领域的热点，其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块，论文推荐板块继续为读者梳理了NeurIPS2022的另外12篇强化学习相关研究论文，其中涉及到鲁棒离线强化学习、分层强化学习、自主强华学习、价值函数学习在强化学习中的泛化、基于约束的强化学习方向等；科研资讯为大家分享来自MIT强势推出的机器狗当守门员研究论文，使用此框架的机器狗能够实现对快速移动的球进行各种敏捷拦截；本次招聘模块为大家推荐伊利诺伊大学香槟分校(UIUC)机器人学习实验室招收博士研究生(人工智能)，有感兴趣的同学看下面详细介绍。本次教程推荐板块为大家分享于2022年6月8日至11日在美国布朗大学召开的第五届强化学习与决策多学科会议(RLDM 2022)。会议的特点是演讲者和与会者的多学科性，跨学科对话和教学是中心目标，同时传播新颖的理论和实验结果。

论文推荐

NeurIPS2022(Thirty-sixth Conference on Neural Information Processing Systems,第三十六届神经信息处理系统会议)是一年一度的国际人工智能顶会，今年将在11月28日至12月9日举办，第一周在新奥尔良会议中心举行线下会议，第二周举行虚拟会议。本次周刊继续为各位读者分享12篇强化学习研究论文。

标题：You Only Live Once: Single-Life Reinforcement Learning（Stanford University : Annie S | 只此一次：单生命强化学习）

简介：强化学习算法通常设计用于学习一种性能策略，该策略可以重复、自主地完成任务，通常从零开始。然而，在许多实际情况中，目标可能不是学习可以重复执行任务的策略，而是简单地在一次试验中成功执行一项新任务。例如，想象一个救灾机器人的任务是从倒塌的建筑物中取回物品，在那里它无法得到人类的直接监督。它必须在一次测试时间内取回这个物体，并且必须在处理未知障碍物时取回，尽管它可能会利用灾难前对建筑物的了解。本文将这种问题设置形式化，并称之为单生命强化学习（SLRL。SLRL提供了一个自然的环境来研究自主适应陌生情况的挑战，研究发现，为标准情景强化学习设计的算法通常很难从这种环境下的分布外状态中恢复。基于这一观察结果，进一步提出了Q加权对抗学习（QWALE）算法，它采用了一种分布匹配策略，在新情况下利用代理的先前经验作为指导。通过对几个单寿命连续控制问题的实验表明，基于本研究的分布匹配公式的方法的成功率提高了20-60%，因为它们可以更快地从新状态中恢复。

《强化学习周刊》第65期：Neurips2022强化学习论文推荐（5）、MIT：机器狗当守门员、青源Workshop具身智能与机器人研讨会

评论列表

评论