Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II

2024年07月18日
  • 简介
    本文提出了一种权重感知深度强化学习(WADRL)方法,旨在解决具有时间窗口的多目标车辆路径问题(MOVRPTW),旨在使用单个深度强化学习(DRL)模型来解决整个多目标优化问题。然后采用非支配排序遗传算法-II(NSGA-II)方法来优化WADRL产生的结果,从而缓解两种方法的局限性。首先,我们设计了一个MOVRPTW模型,以平衡旅行成本最小化和客户满意度最大化。随后,我们提出了一种新颖的DRL框架,该框架包括基于transformer的策略网络。该网络由编码器模块、权重嵌入模块(其中包括目标函数的权重)和解码器模块组成。然后利用NSGA-II来优化WADRL生成的解决方案。最后,广泛的实验结果表明,我们的方法优于现有和传统方法。由于VRPTW中的许多约束条件,生成NSGA-II算法的初始解可能需要耗费大量时间。然而,使用WADRL生成的解作为NSGA-II的初始解显著减少了生成初始解所需的时间。同时,NSGA-II算法可以提高WADRL生成的解的质量,从而产生更好的可扩展性解。值得注意的是,权重感知策略显著减少了DRL的训练时间,同时取得了更好的结果,使单个DRL模型能够解决整个多目标优化问题。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在设计一种权重感知的深度强化学习(WADRL)方法,用于解决多目标车辆路径问题(MOVRPTW),旨在使用单个深度强化学习(DRL)模型来解决整个多目标优化问题。
  • 关键思路
    本文提出了一种基于变压器的策略网络的DRL框架,该网络包括编码器模块、嵌入权重模块和解码器模块,以平衡旅行成本的最小化和客户满意度的最大化。
  • 其它亮点
    本文使用NSGA-II方法优化WADRL产生的结果,从而缓解两种方法的局限性。实验结果表明,该方法优于现有的和传统的方法。使用WADRL生成的解作为NSGA-II的初始解,可以显著减少生成初始解所需的时间。权重感知策略显著减少了DRL的训练时间,同时实现了更好的结果,使单个DRL模型能够解决整个多目标优化问题。
  • 相关研究
    最近的相关研究包括“Multi-objective vehicle routing problem with time windows using a hybrid algorithm”和“Multi-objective vehicle routing problem with time windows: A review and future directions”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问