关于周刊:
关于周刊订阅:
告诉大家一个好消息,《强化学习周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:
1,注册智源社区账号
2,点击周刊界面左上角的作者栏部分“强化学习周刊”(如下图),进入“强化学习周刊”主页。
3,点击“关注TA”(如下图)
4,您已经完成《强化学习周刊》订阅啦,以后智源社区会自动向您推送最新版的《强化学习周刊》!
导读
强化学习已经成为人工智能研究领域的热点,其在各个应用领域中取得了瞩目的成就。《强化学习周刊》第61期共分四个板块,论文推荐板块为读者梳理了ICML2022的9篇强化学习相关研究论文,其中有强化学习算法改进、多智能体协同环境生成、多阶段强化学习中关键期的重要性、分布式强化学习中的风险视角探索等相关方向;科研资讯报道:DeepMind实现Atari超人类基线200倍智能体;学术讲座板块为读者分享来自国防科技大学王锐老师的讲座<组合优化:进化计算与深度强化学习>,对该方向感兴趣的同学不容错过;教程推荐板块推荐:强化学习入门教程:EasyRL(蘑菇书),该教程整合了李宏毅老师的《深度强化学习》,周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》,该教程条理清晰,简单易上手。
论文推荐
ICML (International Conference on Machine Learning) 国际机器学习大会已发展为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议。ICML 2022 大会于 7 月 17 日 - 23 日在美国马里兰州巴尔的摩市以线上线下结合的方式举办。大会中有关强化学习研究的论文有数十篇。本次周刊整理了9篇ICML2022中有关强化学习研究的论文,以供相关学者研究学习。
标题:Reducing Variance in Temporal-Difference Value Estimation via Ensemble of Deep Networks(加州大学:Roy Fox | 基于深度网络集成降低时差估计中的方差)
简介:在时差强化学习算法中,值估计的方差会导致最大目标值的不稳定性和高估。现有的几种集成方法,没有一种算法通过解决估计方差作为高估的根本原因而在样本高效学习方面取得成功。本文提出了MeanQ集合方法,将目标值估计为集合平均值。MeanQ在Atari学习环境基准测试的实验中显示出显著的样本效率。并且发现大小为5的集合充分减少了估计方差,从而消除了滞后目标网络,消除了它作为偏差源的影响,并进一步提高了样本效率。通过直觉和经验证明了MeanQ中的设计选择,包括独立经验抽样的必要性。在一组26个基准Atari环境中,MeanQ在16/26环境中以100K的交互步长超过所有测试基线,包括最佳可用基线SUNRISE,平均高出 68%。在21/26个环境中,MeanQ在500K步长方面也优于Rainbow DQN,平均高出 49%,并且使用200K(±100K)的交互步长达到了人均水平。
论文链接:https://arxiv.org/pdf/2209.07670.pdf
标题:Generative Thermal Design Through Boundary Representation and Multi-Agent Cooperative Environment(University of Waterloo:Hadi Keramati | 基于边界表示和多智能体协同环境的生成式热设计)
简介:生成性设计作为一种可行的设计空间探索方法,在整个设计社区中不断发展。由于附加的对流扩散方程及其相关的边界相互作用,热设计比机械或空气动力学设计更复杂。本文提出了一种生成性热设计,它使用多智能体协作深度强化学习和流体和固体领域的连续几何表示。提出的框架包括一个预先训练的神经网络替代模型,作为预测生成几何图形的传热和压降的环境。设计空间通过复合贝塞尔曲线进行参数化,以解决多鳍形状优化问题。研究表明,该多智能体框架可以使用多目标奖励学习设计策略的策略,而不需要形状推导或可微目标函数。
论文链接:https://arxiv.org/pdf/2208.07952.pdf
标题:On the Importance of Critical Period in Multi-stage Reinforcement Learning(首尔大学:Junseok Park | 论关键期在多阶段强化学习中的重要性)
简介:婴儿生命的最初几年被称为关键期,在此期间,由于神经可塑性,学习能力的整体发展受到显著影响。在最近的研究中,人工智能智能体具有模仿实际神经元机制的深层神经网络,表现出与人类关键期相似的学习期。特别是在这个初始阶段,适当的刺激对发展学习能力起着至关重要的作用。然而,将人类的认知偏差转化为适当的塑造奖励是相当具有挑战性的,而以往关于关键时期的研究并不注重寻找适当的刺激。为了进一步,本文提出了多阶段强化学习,以强调在关键期周围寻找“合适的刺激”。受人类早期认知发展阶段的启发,本文在关键期附近使用多阶段指导,并从AI代理的性能、效率和稳定性方面展示了合适的塑造奖励(第2阶段指导)。
论文链接:https://arxiv.org/pdf/2208.04832.pdf
标题:Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning(芝加哥大学: Shuang Qiu|对比 UCB:在线强化学习中可证明有效的对比自我监督学习)
简介:对比自我监督学习由于在提取特征表示方面的能力,已成功地融入(深度)强化学习(RL)的实践中,从而在各种应用中实现了高效的策略学习。但对强化学习对比学习的理解仍然难以捉摸。为了缩小这种差距,本文研究了如何通过对比学习在一类马尔可夫决策过程 (MDP) 和具有低秩转换的马尔可夫博弈 (MG) 中增强 RL。对于这两个模型,本文建议通过最小化对比损失来提取低秩模型的正确特征表示。此外,在在线设置下,本文提出了新的置信上限 (UCB) 类型算法,该算法将这种对比损失与用于 MDP 或 MG 的在线 RL 算法相结合。本文进一步从理论上证明,此算法恢复了真实表示,同时在学习 MDP 和 MG 中的最优策略和纳什均衡方面实现了样本效率。本文提供了第一个可证明有效的在线 RL 算法,该算法将对比学习用于表示学习。
论文链接:https://arxiv.org/pdf/2207.14800.pdf
标题:Risk Perspective Exploration in Distributional Reinforcement Learning(Kim Jaechul人工智能研究生院: Jihwan Oh|分布式强化学习中的风险视角探索)
简介:分布式强化学习在具有方差和风险特征的连续和离散控制设置中展示了最先进的性能,可用于探索。然而,使用风险属性的探索方法很难找到,尽管分布式 RL 中的许多探索方法都使用了每个动作的回报分布的方差。本文提出了从风险角度探索风险水平和乐观行为的风险调度方法。本文通过综合实验证明了在多智能体设置中使用风险调度来提高 DMIX 算法的性能。
论文链接:https://arxiv.org/pdf/2206.14170.pdf
标题:Guided Exploration in Reinforcement Learning via Monte Carlo Critic Optimization(Giant.AI: Igor Kuznetsov|通过蒙特卡洛批评优化引导探索强化学习)
简介:这类深度确定性异策略算法有效地应用于解决具有挑战性的连续控制问题。然而,当前的方法使用随机噪声作为一种常见的探索方法,该方法具有几个弱点,例如需要对给定任务进行手动调整以及在训练过程中缺乏探索性校准。本文通过提出一种新颖的引导探索方法来应对这些挑战,该方法使用差分方向控制器来结合可扩展的探索动作校正。提供探索性方向的一组蒙特卡洛批评家被呈现为控制器。所提出的方法通过动态改变探索来改进传统的探索方案。然后,本文提出了一种新算法,该算法利用所提出的方向控制器来进行策略和批评者修改。
论文链接:https://arxiv.org/pdf/2206.12674.pdf
标题:History Compression via Language Models in Reinforcement Learning(林茨大学: Fabian Paischer, Thomas Adler, Vihang Patil|强化学习中基于语言模型的历史压缩)
简介:在部分可观察马尔可夫决策过程(POMDP)中,智能体通常使用过去的表示来近似底层MDP。本文作者建议使用冻结的预训练语言转换器(PLT)进行历史表示和压缩,以提高采样效率。为了避免训练Transformer,作者引入了FrozenHopfield,它可以自动将观察值与预处理的标记嵌入相关联。为了形成这些关联,现代Hopfield网络存储了这些标记嵌入,这些标记嵌入通过随机但固定的观测投影获得的查询进行检索。本文的新方法HELM支持Actor-Critic网络架构,该架构包含一个预处理语言Transformer,用于将历史表示为内存模块。由于不需要学习对过去的描述,HELM比竞争对手更具样本效率。在Minigrid和Procgen环境中,HELM取得了当前最好的成绩。
论文链接:https://arxiv.org/pdf/2205.12258.pdf
标题:Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning Environments(马里兰大学: Ryan Sullivan, J. K. Terry, Benjamin Black|悬崖跳水:在强化学习环境中探索奖励表面)
简介:可视化优化景观已经在数值优化方面产生了许多基本见解,并对优化技术进行了新的改进。然而,对于强化学习优化的目标(“奖励表面”)的可视化仅在少数狭义环境中产生。这项工作首次介绍了27个最广泛使用的强化学习环境的奖励表面和相关的可视化。本文还探索了政策梯度方向上的奖励表面,并首次表明许多流行的强化学习环境经常出现“悬崖”(预期回报中突然下降)。作者证明,A2C经常将这些悬崖“脱落”到参数空间的低奖励区域,而PPO则会避开它们,这证实了一种普遍的直觉,即PPO比以前的方法具有更好的性能。作者还引入了一个高度可扩展的库,该库使研究人员将来可以轻松地生成这些可视化。本文的发现提供了新的直觉,以解释现代RL方法的成功和失败,其可视化构成了以新颖方式具体描述了强化学习智能体的几种失败模式。
论文链接:https://arxiv.org/pdf/2205.07015.pdf
标题:Revisiting Some Common Practices in Cooperative Multi-Agent Reinforcement Learning(清华大学: Wei Fu, Chao Yu, Zelai Xu|重新审视多智能体协作强化学习的一些常见实践)
简介:多智能体协作强化学习(MARL)的许多进展都基于两个共同的设计原则:值分解和参数共享。这种方式的典型MARL算法将集中的Q函数分解为局部Q网络,并在智能体之间共享参数。这种算法范式可以实现集中训练和分散执行(CTDE),并在实践中实现高效学习。尽管有所有优点,但作者重新审视了这两个原则,并表明在某些情况下,例如,具有高度多模式奖励景观的环境、价值分解和参数共享可能会有问题,并导致不希望的结果。相比之下,在这些情况下,具有单个策略的策略梯度(PG)方法可以证明收敛到最优解,这部分支持了最近的一些经验观察,即PG在许多MARL试验床中是有效的。在理论分析的启发下,本文提出了针对高回报或多种突发行为实施多智能体PG算法的实用建议,并在各种领域实证验证了作者的发现。
论文链接:https://arxiv.org/pdf/2206.07505.pdf
科研资讯
标题:DeepMind实现Atari超人类基线200倍智能体
简介:Atari 游戏一直是强化学习 (RL) 的长期基准, 提出这个基准是为了测试 RL 算法的一般能力。2020年,DeepMind 提出 Agent57,这是首个在所有 57 款 Atari 游戏上都超过标准人类基准测试的深度强化学习智能体。但是此结果是以牺牲数据效率为代价,需要近800亿帧的经验训练才能实现。两年后的现在,DeepMind 在Agent57基础上进行超级升级,实现超越人类基线所需的经验减少 200 倍的新型智能体-MEME。研究人员调查了在减少数据机制时遇到的一系列不稳定性和瓶颈,并提出有效的解决方案来构建更强大和更高效的智能体。并且还通过 Muesli 和 MuZero 等高性能方法展示了具有竞争力的性能。研究人员表示新方法的四个关键组成部分是(1)一种近似信任区域方法,它能够从在线网络稳定地引导;(2)一种用于损失和优先级的归一化方案,它在学习一组具有广泛规模的价值函数时提高了鲁棒性; (3) 采用 NFNets 技术的改进架构,以便在不需要归一化层的情况下利用更深的网络; (4) 一种策略提炼方法,用于消除瞬时贪婪策略超时。
资讯链接:https://arxiv.org/pdf/2209.07550.pdf
学术讲座
标题:国防科技大学:王锐 | 组合优化:进化计算与深度强化学习(2022年9月28日13:00-16:30 : 腾讯会议ID:982-400-847)
简介:组合优化问题广泛存在于国防、交通、工业、生活等各个领域,几十年来,经典运筹优化、启发式及群体智能(进化计算)方法是解决组合优化问题的主要手段,但随着实际应用中问题规模的不断扩大,求解实时性的要求越来越高,经典算法面临着很大的计算压力,很难实现组合优化问题的快速(在线)求解。近年来随着深度学习技术的迅猛发展,深度强化学习在围棋、机器人等领域的瞩目成果显示了其强大的学习能力与序贯决策能力,为组合优化问题的求解提供了一种新思路。本报告将介绍近些年利用深度强化学习方法解决组合优化问题的相关理论方法与应用研究,并探讨未来该方向亟待解决的若干问题,欢迎大家参与报告进行探讨交流。
讲座链接:https://mp.weixin.qq.com/s/hXaArkRRd5DIlU-TV1RNQw
教程推荐
标题:强化学习入门教程:EasyRL(蘑菇书)
简介:本教程被称为“蘑菇书”,寓意是希望此书能够为读者注入活力,让读者“吃”下这本蘑菇之后,能够饶有兴致地探索强化学习,像马里奥那样愈加强大,继而在人工智能领域觅得意外的收获。本教程内容主要整理自强化学习领域经典的中文视频之一——李宏毅老师的《深度强化学习》,同时整合了周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。
教程链接:https://datawhalechina.github.io/easy-rl/#/
如果你正在从事或关注强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
请扫描下方二维码加入。 备注:“姓名+单位+强化学习”才会验证进群哦。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢