2022年强化学习领域30篇优秀论文推荐｜智源社区《强化学习周刊》第72期

关于周刊：《强化学习周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：注册智源社区账号，点击周刊界面左上角的作者栏部分“强化学习周刊”（如下图），进入“强化学习周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《强化学习周刊》订阅啦，以后智源社区会自动向您推送最新版的《强化学习周刊》！

导语：

强化学习作为人工智能领域研究热点之一，其在人工智能领域以及学科交叉研究中的突出表现，引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯，智源社区结合以前工作基础及读者反馈，在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块，本期为了更好的让读者总结2022年强化学习领域的发展，以及把握来年强化学习领域发展方向，小编汇总了本周刊2022年强化学习领域较有影响的30篇论文，撰写为第72期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、小胖）

导读

强化学习已经成为人工智能研究领域的热点，其在各个应用领域中取得了瞩目的成就。《强化学习周刊》在2022岁末到来之际，整理了今年强化学习领域影响力较大的30篇论文，推荐给读者。希望读者可以在这些论文中得到相关的启发，在2023年有更好的科研进展。

从研究方向角度有扩散策略、自然语言处理、分布式强化学习、组合优化、不确定性估计、游戏、自动调整内在奖励、预训练强化学习、多智能体动态算法配置、因果强化学习、AlphaTensor、Transformers、协作 MARL、逆强化学习、规则发现、推荐系统、多智能体强化学习。

论文推荐

【1】标题：Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning（德克萨斯大学奥斯汀分校: Zhendong Wang|扩散策略作为离线强化学习的表达策略类）

推荐理由：扩散策略为2022年的一种算法，本篇文章将扩散策略与强化学习结合，提出了扩散-QL，它利用条件扩散模型作为行为克隆和策略正则化的高度表达策略类。本文学习了一个动作值函数，并在条件扩散模型的训练损失中添加了一个最大化动作值的项，这会导致寻求接近行为策略的最优动作的损失。本文展示了基于扩散模型策略的表现力以及扩散模型下行为克隆和策略改进的耦合都有助于扩散-QL 的出色性能。

2022年强化学习领域30篇优秀论文推荐｜智源社区《强化学习周刊》第72期

评论列表

评论