【标题】Multi-agent Actor-Critic with Time Dynamical Opponent Model

【作者团队】Yuan Tian, Klaus-Rudolf Kladny, Qin Wang, Zhiwu Huang

【发表日期】2022.4.12

【论文链接】https://arxiv.org/pdf/2204.05576.pdf

【推荐理由】在多智能体强化学习中,多个智能体在与公共环境以及彼此交互的同时同时学习。由于智能体在学习过程中调整了他们的策略,不仅单个智能体的行为变得不稳定,而且智能体感知的环境也变得不稳定。本文利用智能体寻求提高其预期累积奖励的事实,并引入一种新颖的时间动态对手模型(TDOM)来编码对手策略随着时间推移趋于改善的知识。通过推导单个代理的日志目标的下限在理论上激励TDOM,并进一步提出了具有时间动态对手模型 (TDOM-AC) 的多代理Actor-Critic。凭经验表明,TDOM在测试期间实现了出色的对手行为预测。 所提出的TDOM-AC方法在合作,特别是在混合的合作-竞争环境中执行的实验上优于最先进的 Actor-Critic 方法,且能更稳定的训练和更快的收敛。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除