尽管最近在强化学习 (RL) 方面取得了进展,但由 RL 训练的智能体通常对环境敏感,尤其是在多智能体场景中。现有的多智能体强化学习方法只有在完美环境的假设下才能很好地工作。然而,现实世界的环境通常是嘈杂的。从噪声环境中获得的不准确信息会阻碍智能体的学习,甚至导致训练失败。本文关注在噪声环境中训练多个鲁棒智能体的问题。对此本文提出了一种新的算法,多智能体容错强化学习(MAFTRL)。本文主要思想是建立智能体自身的错误检测机制,设计智能体之间的信息通信媒介。错误检测机制基于自动编码器,计算每个智能体观察的可信度,有效降低环境噪声。基于注意力机制的通信媒介可以显著提高智能体提取有效信息的能力。实验结果表明,本文的方法准确地检测了智能体的错误观察,在传统的可靠环境和嘈噪声环境中都具有良好的性能和较强的鲁棒性。此外,MAFTRL 在噪声环境中明显优于传统方法。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢