【标题】Using the proximal policy optimisation algorithm for solving the stochastic capacitated lot sizing problem

【作者团队】Lotte van Hezewijk, Nico Dellaert, Tom Van Woensel, Noud Gademann

【发表日期】2022.4.7

【论文链接】https://www.tandfonline.com/doi/epub/10.1080/00207543.2022.2056540?needAccess=true

【推荐理由】本文研究了具有固定需求的多品种随机产能约束批量问题,以最小化建立、持有和延期订单成本。这是业内常见的问题,涉及库存管理和生产计划。本文研究了一种深度强化学习(DRL)——近端策略优化(PPO)算法在这个问题中的适用性。该问题被建模为马尔可夫决策过程(MDP),在小问题的情况下,它可以通过动态规划求解最优性。在这些设置中,表明PPO的性能接近最优解。对于产品数量不断增加的更大问题实例,求解最优是很难的,本文证明了PPO解决方案优于基准解决方案。对标准PPO算法进行了几次调整,使其更易于扩展到更大的问题实例。本文展示了算法计算时间的线性增长,并给出了一种解释算法结果的方法。

内容中包含的图片若涉及版权问题,请及时与我们联系删除