- 简介Ad hoc团队合作是一个具有挑战性的问题,需要设计一个代理人与队友协作,而无需事先协调或联合培训。开放式adhoc团队合作(OAHT)通过考虑团队人数的变化(称为开放式团队),进一步复杂化了这一挑战。实践中解决此问题的一种有前途的方法是利用图神经网络的可推广性来处理各种类型的代理人的不受限制的数量,称为基于图的策略学习(GPL)。然而,它在协调图上的联合Q值表示缺乏令人信服的解释。在本文中,我们通过合作博弈理论的视角建立了一个新的理论,以理解OAHT的联合Q值表示及其学习范式。在我们的理论基础上,我们提出了一种基于GPL框架的新算法,名为CIAO,具有额外的可证明实现技巧,可以促进学习。实验结果的演示可在https://sites.google.com/view/ciao2024上找到,并且实验的代码已发布在https://github.com/hsvgbkhgbv/CIAO上。
-
- 图表
- 解决问题本论文旨在解决开放式团队合作中的问题,即如何设计一个代理来与队友协作,而无需事先协调或联合训练。同时,论文也试图解决图神经网络在协调图上联合Q值表示的问题。
- 关键思路本论文提出了一种新理论,通过合作博弈理论的视角来理解开放式团队合作中联合Q值的表示和学习范式。在此基础上,论文提出了一种名为CIAO的新算法,它基于图神经网络的框架,同时还有一些可证明的实现技巧,可以促进学习。
- 其它亮点值得关注的亮点包括:CIAO算法的提出,它能够处理不同代理类型和数量的问题;新理论的建立,它提供了对联合Q值表示的更好理解;实验结果的演示和数据集的开源,可以方便研究人员进行复现和进一步研究。
- 在这个领域中,最近的相关研究包括:《Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms》、《Graph Convolutional Networks for Learning with Few Clean and Many Noisy Labels》、《Graph Attention Networks》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流