【标题】Hybrid algorithm based on reinforcement learning for smart inventory management

【作者团队】Carlos Cuartas, Jose Aguilar

【发表日期】2022.8.3

【论文链接】https://link.springer.com/content/pdf/10.1007/s10845-022-01982-5.pdf

【推荐理由】本文提出了一种基于强化学习和库存管理方法的混合算法,称为“需求驱动的材料需求计划”(DDMRP) ,以确定购买某种产品的最佳时间,以及需要多少数量。为此,库存管理问题被描述为一个马可夫决策过程,系统与之交互的环境是根据 DDMRP 方法中提出的概念,并通过强化学习算法ーー具体来说,就是 Q-Learning 来设计的。最优策略是决定何时购买以及购买多少。为了确定最优策略,提出了三种奖励函数的求解方法: 第一种是基于库存水平的; 第二种是基于库存到最优水平的距离的优化函数; 第三种是基于库存到最优水平的水平和距离的成形函数。结果表明,该算法在不同特征的情景下具有良好的效果,在需求不连续或连续、季节性和非季节性以及需求高峰等情景下具有良好的性能。