GIDITIC|基于强化学习的智能库存管理混合算法

【标题】Hybrid algorithm based on reinforcement learning for smart inventory management

【作者团队】Carlos Cuartas, Jose Aguilar

【发表日期】2022.8.3

【论文链接】https://link.springer.com/content/pdf/10.1007/s10845-022-01982-5.pdf

【推荐理由】本文提出了一种基于强化学习和库存管理方法的混合算法，称为“需求驱动的材料需求计划”(DDMRP) ，以确定购买某种产品的最佳时间，以及需要多少数量。为此，库存管理问题被描述为一个马可夫决策过程，系统与之交互的环境是根据 DDMRP 方法中提出的概念，并通过强化学习算法ーー具体来说，就是 Q-Learning 来设计的。最优策略是决定何时购买以及购买多少。为了确定最优策略，提出了三种奖励函数的求解方法: 第一种是基于库存水平的; 第二种是基于库存到最优水平的距离的优化函数; 第三种是基于库存到最优水平的水平和距离的成形函数。结果表明，该算法在不同特征的情景下具有良好的效果，在需求不连续或连续、季节性和非季节性以及需求高峰等情景下具有良好的性能。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

GIDITIC|基于强化学习的智能库存管理混合算法

评论