【标题】Multi-Agent Reinforcement Learning Based Fully Decentralized Dynamic Time Division Configuration for 5G and B5G Network
【作者团队】Xiangyu Chen, Gang Chuai, Weidong Gao
【发表日期】2022.2.23
【论文链接】https://www.mdpi.com/1424-8220/22/5/1746/htm
【推荐理由】未来的网络服务必须适应高度动态的上下行流量。虽然 5G NR 提供了更灵活的双工模式,但如何根据业务流量配置有效的双工模式仍然是一个开放的研究领域。本文提出了一种基于分布式多智能体深度强化学习(MARL)的分散式动态时分双工(D-TDD)技术配置方法。首先,将 D-TDD 配置问题建模为动态规划问题。本文的目标是找到一个 D-TDD 配置策略,使所有 UE 的总和率的预期折扣回报最大化。其次,为了减少信令开销,本文设计了一个采用分布式 MARL 技术的完全去中心化的解决方案。 第三,为了解决 MARL 中缺乏全局信息导致的整体系统收益问题,本文应用了宽大控制和基于二进制 LSTM (BLSTM) 的自动编码器。通过并行分布式训练,得到全局 D-TDD 策略。该方法将MARL算法部署在每个基站的移动边缘计算(MEC)服务器上,利用服务器的存储和计算能力进行分布式训练。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢