AI热门论文

POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation

Alexey Skrynnik ,

Anton Andreychuk ,

Anatolii Borzilov ,

2024年07月20日

最近，多智能体强化学习（MARL）在解决各种环境下具有挑战性的合作和竞争多智能体问题方面表现出色，主要涉及少量代理和完全可观察性。此外，一系列重要的与机器人相关的任务，如多机器人导航和避障，通常采用经典的不可学习方法（例如启发式搜索），目前建议采用基于学习或混合方法来解决。然而，在这个领域中，由于缺乏支持学习和评估的统一框架，很难甚至不可能对经典、基于学习和混合方法进行公正比较。为此，我们介绍了POGEMA，一个包括快速学习环境、问题实例生成器、预定义问题集合、可视化工具包和允许自动评估的基准测试工具的全面工具集。我们介绍并说明了一个评估协议，该协议定义了一系列基于主要评估指标（如成功率和路径长度）计算的与领域相关的指标，允许公正的多重比较。我们呈现了这样一个比较的结果，其中涉及各种最先进的MARL、基于搜索和混合方法。

ML

AI

MultiAgent

PDF

解读

Long-Horizon Planning for Multi-Agent Robots in Partially Observable Environments

Siddharth Nayak ,

Adelmo Morrison Orozco ,

Marina Ten Have ,

2024年07月14日

语言模型（LMs）理解自然语言的能力使其成为将人类指令解析为自主机器人任务计划的强大工具。与依赖特定领域知识和手工规则的传统规划方法不同，LMs从多样化的数据中进行泛化，并通过最小调整适应各种任务，充当压缩的知识库。然而，标准形式的LMs在长期任务中面临挑战，特别是在部分可观察的多智能体环境中。我们提出了一种基于LM的多智能体机器人长期规划器（LLaMAR）的认知架构，它在部分可观察环境中实现了长期任务的最新成果。LLaMAR采用计划-执行-纠正-验证框架，允许根据行动执行反馈进行自我纠正，而不依赖于神谕或模拟器。此外，我们提出了MAP-THOR，一个包含各种复杂度家庭任务的全面测试套件，位于AI2-THOR环境中。实验表明，LLaMAR相比其他最先进的基于LM的多智能体规划器，成功率提高了30%。

Rob

MultiAgent

PDF

解读

Coordination Failure in Cooperative Offline MARL

Callum Rhys Tilbury ,

Claude Formanek ,

Louise Beyers ,

2024年07月01日

离线多智能体强化学习(MARL)利用静态数据集来学习最优多智能体控制。然而，从静态数据中学习存在一些独特的挑战需要克服。本文关注协调失败问题，并研究离线数据情况下多智能体策略梯度中联合动作的作用，重点研究一种常见情况，我们称之为“数据下的最佳响应”(BRUD)方法。通过使用双人多项式博弈作为分析工具，我们展示了BRUD算法的一个简单但被忽视的失败模式，这可能导致离线环境下的灾难性协调失败。基于这些洞见，我们提出了一种缓解这种失败的方法，通过在策略学习过程中根据联合动作相似性优先选择数据集中的样本，并在详细实验中展示了其有效性。然而，更普遍的是，我们认为优先选择数据集采样是离线MARL中的一个有前途的创新领域，可以与其他有效方法如评论家和策略规范相结合。重要的是，我们的工作展示了如何从简化的、可处理的游戏中获得有用的、理论上有根据的洞见，这些洞见可以转化到更复杂的情境中。一个核心维度是一个交互式笔记本，几乎所有的结果都可以在浏览器中重现。

ML

AI

MultiAgent

PDF

解读

Online Frequency Scheduling by Learning Parallel Actions

Anastasios Giovanidis ,

Mathieu Leconte ,

Sabrine Aroua ,

2024年06月07日

在未来的6G网络中，无线资源管理是一个具有挑战性的问题，新型应用程序在可用资源之间为用户之间创建了强烈的竞争。在本研究中，我们考虑了多用户MIMO系统中的频率调度问题。需要将频率资源分配给一组用户，同时允许在同一子带中进行并发传输。传统方法无法应对所有涉及的约束和不确定性，而强化学习可以直接学习这种复杂环境下的近似最优解。然而，调度问题具有巨大的行动空间，涉及用户和子带的所有组合，因此不能直接使用现成的算法。在本研究中，我们提出了一种基于子带分支的调度器，这是一种具有并行决策能力的深度Q学习架构。子带学习相关但本地的决策策略，它们一起优化全局奖励。为了提高架构与子带数量的可扩展性，我们提出了减少学习参数数量的变体（Unibranch，基于图神经网络的变体）。所提出的架构的并行决策使得满足实时系统中的短推理时间要求成为可能。此外，深度Q学习方法允许在部署后进行在线微调，以弥合模拟与实际之间的差距。所提出的架构与文献中的相关基线进行了评估，显示出竞争性能和适应不断变化的环境的在线调整的可能性。

cs.NI

ML

MultiAgent

PDF

解读

Social learning with complex contagion

Hiroaki Chiba-Okabe ,

Joshua B. Plotkin

2024年06月21日

我们提出了一个数学模型，将复杂传染的概念与收益偏向的模仿相结合，描述社会行为如何在人群中传播。传统的模仿社会学习模型基于简单传染，即一个个体在单次交互后可能模仿更成功的邻居。我们的框架将这一过程推广到包括复杂传染，这需要多次接触，才会考虑采用不同的行为。我们将其制定为有限人口的离散时间和状态随机过程，并将其导出为连续的常微分方程，该方程推广了复制者方程，这是进化博弈论中最广泛使用的动态模型。当应用于线性频率依赖游戏时，我们的具有复杂传染的社会学习产生了与传统模仿动态不同的定性结果：它可以将囚徒困境从唯一的全缺席者均衡转变为人口中合作者和缺席者的稳定混合或双稳态系统；它将雪崩游戏从单一均衡转变为双稳态均衡；它可以改变协调游戏从边界的双稳态到两个内部均衡。长期结果取决于传染过程的复杂性和选择力的平衡，选择力将模仿偏向更成功的类型。我们的分析将进化博弈论和复杂传染领域相互交织，提供了一个综合框架，描述了社会系统中更真实的行为变化形式。

physics.soc-ph

MultiAgent

Neural

PDF

解读

FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning

2024年06月04日

最近强化学习（RL）的进展在很大程度上依赖于各种精心设计的基准测试，这些测试提供了环境平台和一致的标准来评估现有和新颖的算法。特别是在多智能体RL（MARL）中，基于合作游戏的大量基准测试推动了改进合作多智能体系统可扩展性的算法的发展。然而，在竞争环境下，尚未建立具有具有挑战性的游戏动态和视觉输入的轻量级开源基准测试。在这项工作中，我们提出了FightLadder，一个实时格斗游戏平台，以支持竞争性MARL研究。除了平台，我们还提供了用于竞争游戏的最先进的MARL算法的实现，以及一组评估指标来表征代理的性能和可利用性。我们通过训练一个一般代理，该代理在单人模式下持续击败12个内置角色，展示了这个平台的可行性，并揭示了在双人模式下训练一个不可利用代理而没有人类知识和演示的困难。FightLadder提供了精心设计的环境，以解决竞争性MARL研究中的关键挑战，旨在催生该领域的新发现和进步。视频和代码请访问https://sites.google.com/view/fightladder/home。

MultiAgent

AI

ML

PDF

解读

Safe Multi-agent Reinforcement Learning with Natural Language Constraints

Tristan Tomilin ,

2024年05月30日

自然语言约束在安全多智能体强化学习（MARL）中的作用至关重要，但经常被忽视。虽然安全MARL在机器人和自主车辆等领域具有广泛的潜力，但其完整潜力受到需要以预先设计的数学术语定义约束的限制，这需要广泛的领域专业知识和强化学习知识，从而阻碍了其更广泛的采用。为了解决这个限制并使安全MARL更易于访问和适应，我们提出了一种名为“自然语言约束下的安全多智能体强化学习”（SMALL）的新方法。我们的方法利用经过微调的语言模型来解释和处理自由形式的文本约束，将其转换为捕捉禁止状态和行为本质的语义嵌入。然后将这些嵌入集成到多智能体策略学习过程中，使代理能够学习最小化约束违规的策略，同时优化奖励。为了评估SMALL的有效性，我们引入了LaMaSafe，一个多任务基准，旨在评估多个代理在遵守自然语言约束方面的表现。在各种环境中进行的实证评估表明，SMALL实现了可比的奖励和显着减少的约束违规，突显了其理解和执行自然语言约束的有效性。

MultiAgent

ML

PDF

解读

Understanding Iterative Combinatorial Auction Designs via Multi-Agent Reinforcement Learning

Kevin Leyton-Brown

2024年02月29日

本文研究了多智能体强化学习（MARL）算法是否可以用于理解迭代组合拍卖，因为这些算法最近在其他几个领域已经表现出实证成功。迭代组合拍卖在高风险环境下广泛使用，例如频谱拍卖。这样的拍卖很难分析，使得投标人很难确定如何行事，设计者难以优化拍卖规则以确保高收入或福利等期望结果。研究发现，MARL确实可以有助于拍卖分析，但有效部署并不容易。本文首先描述了建模决策，使得生成的游戏具有可处理性，同时不会牺牲重要特征，例如不完美的信息或投标人之间的不对称性。我们还讨论了如何避免各种MARL算法的陷阱，如何克服验证收敛的挑战，以及如何生成和解释多个均衡。我们通过使用该方法来评估时钟拍卖的特定规则变更来说明其潜力，发现由于投标人行为的复杂变化而导致显著不同的拍卖结果。

GameTh

AI

MultiAgent

PDF

解读

AgentScope: A Flexible yet Robust Multi-Agent Platform

2024年02月21日

随着大型语言模型（LLMs）的快速发展，多智能体应用取得了显著进展。然而，协调智能体合作和LLMs的不稳定表现所带来的复杂性，给开发鲁棒且高效的多智能体应用带来了显著挑战。为了解决这些挑战，我们提出了AgentScope，这是一个以消息交换为核心通信机制的面向开发人员的多智能体平台。AgentScope提供了丰富的语法工具、内置的智能体和服务功能、应用演示和实用监控的用户友好界面、零代码编程工作站以及自动提示调整机制，这些显著降低了开发和部署的门槛。为了实现鲁棒和灵活的多智能体应用，AgentScope提供了内置和可定制的容错机制。同时，它还配备了系统级支持，用于管理和利用多模态数据、工具和外部知识。此外，我们设计了一个基于Actor的分布式框架，使本地和分布式部署之间的转换变得容易，并自动进行并行优化，无需额外的工作量。有了这些功能，AgentScope赋予开发人员建立完全发挥智能体潜力的应用的能力。我们已经在https://github.com/modelscope/agentscope上发布了AgentScope，并希望AgentScope能在这个快速发展的领域中得到更广泛的参与和创新。

MultiAgent

AI

PDF

解读