N-Agent Ad Hoc Teamwork

2024年04月16日
  • 简介
    当前在多智能体环境中学习合作行为的方法通常假设相对严格的环境。在标准的完全合作的多智能体强化学习中,学习算法控制场景中的\textit{所有}智能体,而在即兴团队合作中,学习算法通常只控制场景中的$\textit{单个}$智能体。然而,现实世界中许多合作场景要求的条件要少得多。例如,在自动驾驶场景中,一家公司可能会用同一种学习算法来训练其汽车,但是一旦上路,这些汽车必须与来自另一家公司的汽车合作。为了扩大合作学习方法可以应对的场景类别,我们引入了$N$-agent即兴团队合作,其中一组自主智能体必须在评估时与动态变化的不同数量和类型的队友进行交互和合作。本文正式阐述了这个问题,并提出了$\textit{带智能体建模的策略优化}$(POAM)算法。POAM是一个策略梯度、多智能体强化学习方法,用于解决NAHT问题,通过学习队友行为的表示来适应不同队友的行为。在StarCraft II任务上的实证评估表明,POAM相对于基线方法改善了协作任务的回报,并实现了对未见过队友的越界泛化。
  • 图表
  • 解决问题
    论文提出了一个新的问题:如何在多智能体环境中进行自适应合作,以适应不同类型和数量的队友?
  • 关键思路
    POAM算法通过学习队友行为的表示,提出了一种基于策略梯度的多智能体强化学习方法,解决了多智能体环境下的自适应合作问题。
  • 其它亮点
    论文在StarCraft II任务上进行了实验,证明POAM算法相比基线算法在合作任务中获得了更好的回报,并且能够泛化到未见过的队友。论文还开源了代码。
  • 相关研究
    近年来,多智能体强化学习领域中的相关研究包括:Multi-Agent Actor-Critic(MAAC)、Qtran等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论