Kaleidoscope: Learnable Masks for Heterogeneous Multi-agent Reinforcement Learning

向作者提问

NEW

简介

在多智能体强化学习（MARL）中，常常采用参数共享来增强样本效率。然而，全参数共享的流行方法通常会导致智能体之间的同质化策略，可能限制从策略多样性中获得的性能优势。为了解决这个关键限制，我们引入了“万花筒”（Kaleidoscope），这是一种新颖的自适应部分参数共享方案，可以促进策略的异质性，同时仍然保持高样本效率。具体来说，Kaleidoscope除了维护一组公共参数之外，还维护多组不同的可学习掩码，用于不同代理之间的参数共享。它通过鼓励这些掩码之间的差异来促进策略网络之间的多样性，而不会牺牲参数共享的效率。这种设计允许Kaleidoscope在各种环境中动态平衡高样本效率和广泛的策略表示能力，有效地弥合了全参数共享和非参数共享之间的差距。我们进一步将Kaleidoscope扩展到演员-评论家算法中的评论家集合，这有助于改善价值估计。我们在广泛的环境中进行了实证评估，包括多智能体粒子环境、多智能体MuJoCo和StarCraft多智能体挑战v2，证明了Kaleidoscope相对于现有的参数共享方法具有优越的性能，展示了它在MARL中提高性能的潜力。代码公开可用于\url{https://github.com/LXXXXR/Kaleidoscope}。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决多智能体强化学习中参数共享导致智能体策略同质化的问题，提出一种新的自适应部分参数共享方案Kaleidoscope。
关键思路

Kaleidoscope维护一个共同参数集和多个不同的可学习掩码集，以指导参数共享，从而促进策略网络的多样性，同时保持高样本效率。该设计允许Kaleidoscope在各种环境中动态平衡高样本效率和广泛的策略表示能力，有效地弥合了完全参数共享和非参数共享之间的差距。
其它亮点

该方法在多个环境中进行了实验验证，包括多智能体粒子环境、多智能体MuJoCo和StarCraft多智能体挑战v2，并展示了与现有参数共享方法相比的优异性能。此外，该论文还将Kaleidoscope扩展到演员-评论家算法的评论家集，以改善价值估计。研究开源了代码。
相关研究

最近的相关研究包括：Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments、Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms、Parameter Sharing Deep Deterministic Policy Gradient for Cooperative Multi-Agent Reinforcement Learning等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问