- 简介这项工作介绍了一种新颖的价值分解算法,称为“动态深度因子图”(DDFG)。与传统的协调图不同,DDFG利用因子图来表达价值函数的分解,提供了更强的灵活性和适应性,适用于复杂的价值函数结构。DDFG的核心是一种图结构生成策略,创新地实时生成因子图结构,有效地解决了智能体之间动态协作的需求。DDFG在聚合价值函数的计算开销和完全分解的性能下降之间取得了最佳平衡。通过应用最大和算法,DDFG有效地识别出最优策略。我们在复杂场景中进行了实证验证,包括高阶捕食者-猎物任务和“星际争霸II多智能体挑战赛”(SMAC),从而强调了其克服现有价值分解算法限制的能力。DDFG成为了解决需要细致理解和促进动态智能体协作的多智能体强化学习挑战的强大解决方案。DDFG的实现已经公开,源代码可在\url{https://github.com/SICC-Group/DDFG}上获得。
- 图表
- 解决问题本文旨在解决多智能体强化学习中价值函数分解的问题,提出了一种新的算法DDFG,并在复杂的场景下进行了实验验证。
- 关键思路DDFG算法采用因子图来分解价值函数,通过动态生成因子图结构来适应动态协作需求,通过max-sum算法高效地识别最优策略。
- 其它亮点DDFG算法在复杂的场景中表现出了很好的性能,包括高阶捕食者-猎物任务和StarCraft II多智能体挑战。作者公开了DDFG算法的实现和源代码。
- 相关工作包括传统的协调图算法和其他价值函数分解算法,如VDN、QTRAN等。
沙发等你来抢
去评论
评论
沙发等你来抢