Bin Packing Optimization via Deep Reinforcement Learning

2024年03月19日
  • 简介
    最近,由于在物流和仓储环境中的广泛应用,装箱问题(BPP)吸引了热情的研究兴趣。优化装箱问题以使更多物体能够装入箱子是非常重要的。物体装箱顺序和放置策略是BPP的两个关键优化目标。然而,现有的BPP优化方法,如遗传算法(GA),存在计算成本高和相对低的准确性等主要问题,使其难以在实际场景中实现。为了填补这一研究空白,我们提出了一种基于深度强化学习(DRL)的新型二维(2D)-BPP和三维(3D)-BPP优化方法,用于具有规则形状的物体,以最大化空间利用率并最小化箱子使用数量。首先,提出了一个端到端的DRL神经网络,由修改后的指针网络构成,包括编码器、解码器和注意模块,以实现最佳物体装箱顺序。其次,根据自上而下的操作模式,使用基于高度图的放置策略来将有序的物体排列在箱子中,防止物体与箱子和箱子中的其他物体发生碰撞。第三,将奖励和损失函数定义为箱子的紧凑度、金字塔形和使用数量的指标,以基于策略的演员-评论家框架对DRL神经网络进行训练。最后,进行了一系列实验,将我们的方法与传统的装箱方法进行比较,得出结论:我们的方法在装箱准确性和效率方面优于这些装箱方法。
  • 图表
  • 解决问题
    本论文旨在通过深度强化学习(DRL)解决二维(2D)和三维(3D)物体装箱问题(BPP),优化物体的装箱顺序和放置策略,以实现最大化空间利用和最小化箱子使用数量。
  • 关键思路
    本论文提出了一种基于修改后的指针网络的端到端DRL神经网络,通过编码器、解码器和注意力模块实现最佳物体装箱顺序。同时,采用高度图的放置策略来排列已排序的物体,避免物体与箱子和其他物体在箱子中碰撞。
  • 其它亮点
    本论文的实验结果表明,与传统装箱方法相比,该方法在装箱精度和效率方面均优于其他方法。论文还定义了奖励和损失函数作为紧凑性、金字塔和箱子使用数量的指标,基于on-policy actor-critic框架对DRL神经网络进行训练。
  • 相关研究
    近年来,遗传算法(GA)等优化方法在BPP中得到了广泛应用,但存在计算成本高和准确性相对较低的问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论