Generalized Multi-Objective Reinforcement Learning with Envelope Updates in URLLC-enabled Vehicular Networks

简介

我们开发了一种新的多目标强化学习（MORL）框架，用于在传统的次6GHz频谱和太赫兹频率上运行的多频段车载网络中共同优化无线网络选择和自主驾驶策略。该框架旨在最大化交通流量，最小化碰撞，通过控制车辆的运动动力学（即速度和加速度）来增强超可靠低延迟通信（URLLC），同时最小化切换（HOs）。我们将这个问题作为一个多目标马尔可夫决策过程（MOMDP）来处理，并针对冲突目标的预定义和未知偏好开发解决方案。具体而言，首先开发了基于深度Q网络和双重深度Q网络的解决方案，考虑使用预定义的偏好来标量化交通和电信奖励。然后，我们开发了一种新颖的信封MORL解决方案，该方案开发了能够处理多个目标的策略，而这些目标对于代理人来说是未知的偏好。虽然这种方法减少了对标量奖励的依赖，但策略的有效性因不同的偏好而异是一个挑战。为了解决这个问题，我们应用了Bellman方程的广义版本，并优化了多目标Q值的凸包，以学习一个统一的参数化表示，能够在所有可能的偏好配置下生成最优策略。在初始学习阶段之后，我们的代理人可以在任何指定的偏好下执行最优策略，或者从最小的数据样本中推断出偏好。数值结果验证了基于信封的MORL解决方案的功效，并展示了与车辆运动动力学、HOs和通信数据速率相关的有趣见解。所提出的策略使自主驾驶车辆能够采用安全的驾驶行为，并提高了连接性。
图表
解决问题

该论文试图解决在多频段车联网中，同时优化网络选择和自动驾驶策略的多目标强化学习问题，以提高交通流量、减少碰撞、增强URLLC并最小化HOs的数量。
关键思路

该论文提出了一种新的MORL框架，将问题建模为MOMDP，并开发了基于深度Q网络和双重深度Q网络的解决方案，以及一种新的信封MORL解决方案，该方案通过优化多目标Q值的凸包来学习一个统一的参数化表示，能够生成所有可能偏好配置下的最优策略。
其它亮点

论文的实验结果验证了信封MORL解决方案的有效性，并展示了车辆运动动力学、HOs和通信数据速率之间的相互依赖关系。该论文还开源了代码，提供了数据集和实验设计细节。
相关研究

最近的相关研究包括“Multi-Objective Reinforcement Learning for Resource Allocation in Vehicular Networks”和“Multi-Objective Optimization for Vehicular Communications: A Survey”。

Generalized Multi-Objective Reinforcement Learning with Envelope Updates in URLLC-enabled Vehicular Networks

评论