【标题】Decentralized scheduling through an adaptive, trading-based multi-agent system

【作者团队】Michael Kölle, Lennart Rietdorf, Kyrill Schmid

【发表日期】2022.7.5

【论文链接】https://arxiv.org/pdf/2207.11172.pdf

【推荐理由】在多智能体强化学习系统中,一个智能体的行为会对其他智能体的奖励产生负面影响。 解决这个问题的一种方法是让智能体在彼此之间交换他们的奖励。 受此启发,这项工作将交易方法应用于模拟调度环境,其中智能体负责将传入作业分配给计算核心。 在这种环境下,强化学习智能体成功学会了交易。 智能体可以交换计算核心的使用权,以比低优先级、低回报的工作更快地处理高优先级、高回报的工作。 然而,由于组合效应,简单强化学习智能体在这种环境中的动作和观察空间随问题大小的关键参数呈指数增长。 然而,如果智能体被分成几个独立的子单元,指数缩放行为可以转化为线性行为。 作者使用智能体内部参数共享进一步改进了这种分布式架构。 在本文的调度环境中,分布式智能体架构的优势明显超过了其他方法,证明了分布式智能体架构使用智能体内部参数共享能变得更加高效。