Online Frequency Scheduling by Learning Parallel Actions

简介

在未来的6G网络中，无线资源管理是一个具有挑战性的问题，新型应用程序在可用资源之间为用户之间创建了强烈的竞争。在本研究中，我们考虑了多用户MIMO系统中的频率调度问题。需要将频率资源分配给一组用户，同时允许在同一子带中进行并发传输。传统方法无法应对所有涉及的约束和不确定性，而强化学习可以直接学习这种复杂环境下的近似最优解。然而，调度问题具有巨大的行动空间，涉及用户和子带的所有组合，因此不能直接使用现成的算法。在本研究中，我们提出了一种基于子带分支的调度器，这是一种具有并行决策能力的深度Q学习架构。子带学习相关但本地的决策策略，它们一起优化全局奖励。为了提高架构与子带数量的可扩展性，我们提出了减少学习参数数量的变体（Unibranch，基于图神经网络的变体）。所提出的架构的并行决策使得满足实时系统中的短推理时间要求成为可能。此外，深度Q学习方法允许在部署后进行在线微调，以弥合模拟与实际之间的差距。所提出的架构与文献中的相关基线进行了评估，显示出竞争性能和适应不断变化的环境的在线调整的可能性。
图表
解决问题

论文试图解决多用户MIMO系统中的频率调度问题，以实现在同一子带中的并发传输。如何在复杂的环境中直接学习接近最优解的解决方案？
关键思路

提出了一种基于分支行动的调度器，是一种具有并行决策能力的深度Q学习架构。子带学习相关但本地的决策策略，同时它们共同优化全局奖励。
其它亮点

该论文提出的架构具有并行决策能力，可以满足实时系统中的短推理时间要求。此外，深度Q学习方法允许在线微调以弥合模拟与实际之间的差距。该论文的实验表明，该架构的性能优于相关基线，并且可以适应不断变化的环境。
相关研究

在最近的研究中，也有一些相关的研究，例如“Deep Reinforcement Learning for Dynamic Multichannel Access in Wireless Networks”和“Deep Reinforcement Learning for Distributed Dynamic Spectrum Access in Cognitive Radio Networks”。

Online Frequency Scheduling by Learning Parallel Actions

评论