Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II

向作者提问

NEW

简介

本文提出了一种权重感知深度强化学习（WADRL）方法，旨在解决具有时间窗口的多目标车辆路径问题（MOVRPTW），旨在使用单个深度强化学习（DRL）模型来解决整个多目标优化问题。然后采用非支配排序遗传算法-II（NSGA-II）方法来优化WADRL产生的结果，从而缓解两种方法的局限性。首先，我们设计了一个MOVRPTW模型，以平衡旅行成本最小化和客户满意度最大化。随后，我们提出了一种新颖的DRL框架，该框架包括基于transformer的策略网络。该网络由编码器模块、权重嵌入模块（其中包括目标函数的权重）和解码器模块组成。然后利用NSGA-II来优化WADRL生成的解决方案。最后，广泛的实验结果表明，我们的方法优于现有和传统方法。由于VRPTW中的许多约束条件，生成NSGA-II算法的初始解可能需要耗费大量时间。然而，使用WADRL生成的解作为NSGA-II的初始解显著减少了生成初始解所需的时间。同时，NSGA-II算法可以提高WADRL生成的解的质量，从而产生更好的可扩展性解。值得注意的是，权重感知策略显著减少了DRL的训练时间，同时取得了更好的结果，使单个DRL模型能够解决整个多目标优化问题。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在设计一种权重感知的深度强化学习（WADRL）方法，用于解决多目标车辆路径问题（MOVRPTW），旨在使用单个深度强化学习（DRL）模型来解决整个多目标优化问题。
关键思路

本文提出了一种基于变压器的策略网络的DRL框架，该网络包括编码器模块、嵌入权重模块和解码器模块，以平衡旅行成本的最小化和客户满意度的最大化。
其它亮点

本文使用NSGA-II方法优化WADRL产生的结果，从而缓解两种方法的局限性。实验结果表明，该方法优于现有的和传统的方法。使用WADRL生成的解作为NSGA-II的初始解，可以显著减少生成初始解所需的时间。权重感知策略显著减少了DRL的训练时间，同时实现了更好的结果，使单个DRL模型能够解决整个多目标优化问题。
相关研究

最近的相关研究包括“Multi-objective vehicle routing problem with time windows using a hybrid algorithm”和“Multi-objective vehicle routing problem with time windows: A review and future directions”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问