- 简介近年来,学习的调度问题构造启发式方法已经变得越来越具有竞争力,可以与已建立的求解器和启发式方法相媲美。特别是,使用深度强化学习(DRL)的解决方案方法已经取得了显著的改进。虽然在设计网络架构和训练算法以实现最先进的结果方面已经受到了很多关注,但很少有研究调查在推理期间使用训练有素的DRL代理的最佳方法。我们的工作基于这样一个假设,即类似于搜索算法,训练有素的DRL代理的利用应该取决于可接受的计算预算。我们提出了一种简单而有效的参数化方法,称为$\delta$-sampling,该方法操纵训练后的动作向量,以在解决方案构建过程中将代理行为偏向于探索或开发。通过遵循这种方法,我们可以在仍然生成可接受数量的解决方案的情况下,实现对搜索空间的更全面覆盖。此外,我们提出了一种算法,用于获得给定数量的解决方案和任何给定训练代理的最优参数化。通过将我们的推理方法扩展到作业车间调度问题的现有训练协议上进行的实验验证了我们的假设,并导致所生成的解决方案的预期改进。
- 图表
- 解决问题本文旨在探究如何在解决调度问题时,最优地利用已训练的深度强化学习(DRL)代理。作者提出了一种简单而有效的参数化方法,称为δ-采样,可以在探索和利用之间平衡代理行为,以实现更全面的搜索空间覆盖和生成可接受数量的解决方案。
- 关键思路本文提出了一种简单而有效的参数化方法,称为δ-采样,可以在探索和利用之间平衡代理行为,以实现更全面的搜索空间覆盖和生成可接受数量的解决方案。
- 其它亮点本文通过实验验证了δ-采样方法的有效性,并提出了一种用于获取给定数量解决方案的最佳参数化算法。研究表明,在解决调度问题时,利用已训练的DRL代理的最优方法应该取决于可接受的计算预算。本文的方法可以作为一种新的解决调度问题的思路。
- 近年来,针对调度问题的解决方案不断涌现。其中,使用深度强化学习(DRL)的方法取得了显著的进展。此外,还有一些研究探索了如何在计算预算有限的情况下最优地利用已训练的代理。相关研究包括“Learning to Optimize Job Shop Scheduling via Deep Reinforcement Learning”(Xie等)和“Efficient Reinforcement Learning for Job Shop Scheduling”(Mohammadi等)。
沙发等你来抢
去评论
评论
沙发等你来抢