在物流仓储场景中,无序混合纸箱码垛机器人有着大量的应用需求。物流仓储自动化的一个核心难点问题,是求解装箱问题(Bin Packing Problem,BPP)这一经典的 NP 难题,即为每一个纸箱规划在容器中的摆放位置,以最大化容器的空间利用率。求解 BPP 问题的传统方法大多是基于启发式规则的搜索。

在实际应用场景中,机器人往往无法预先看到传送带上即将到来的所有箱子,因而无法对整个箱子序列进行全局最优规划。因而现有的 BPP 方法无法被直接用于真实物流场景。

事实上,人可以根据即将到来的几个箱子的形状尺寸,很快地做出决策,并不需要、也无法做到对整个箱子序列的全局规划。这种仅仅看到部分箱子序列的装箱问题,称为在线装箱问题(Online BPP)。物流输送线边上的箱子码垛任务一般都可以描述为 Online BPP 问题。

Online BPP 问题的复杂度由箱子规格、容器大小、箱子序列的分布情况、前瞻数量等因素共同决定。由于仅知道部分箱子序列的有限信息,以往的组合优化方法难以胜任。

近日,国防科技大学、克莱姆森大学和视比特机器人的研究人员合作提出了使用深度强化学习求解这一问题。该算法性能优异,实现简单,可适用于任意多个前瞻箱子的情形,摆放空间利用率达到甚至超过人类水平。同时,该团队结合 3D 视觉技术,实现了业界首个高效能无序混合码垛机器人。论文已被人工智能顶会 AAAI 2021 大会接收。

作者使用带约束的深度强化学习求解 BPP-1 问题,即只能前瞻一个箱子的情形。然后基于蒙特卡洛树搜索实现了从 BPP-1 到 BPP-k 的拓展。下图 给出了 BPP-1 和 BPP-k 问题的场景示意。

内容中包含的图片若涉及版权问题,请及时与我们联系删除