Reinforcement Learning with Intrinsically Motivated Feedback Graph for Lost-sales Inventory Control

2024年06月26日
  • 简介
    强化学习在库存管理领域表现出了良好的性能和通用性。然而,由于在线经验的两个限制,进一步改进库存控制中的强化学习算法受到了阻碍。首先,在线经验在现实世界应用中获取成本高昂。由于强化学习算法的低样本效率性质,需要耗费大量时间来训练强化学习策略以达到收敛。其次,由于库存控制中典型的失销现象,在线经验可能无法反映出真实需求,这使得学习过程更具挑战性。为了应对上述挑战,我们提出了一个决策框架,将强化学习与反馈图(RLFG)和内在动机探索(IME)相结合,以提高样本效率。特别地,我们首先利用失销库存控制问题的固有属性,专门为失销库存控制问题设计反馈图(FG),以生成丰富的辅助经验来辅助强化学习更新。然后我们对设计的FG如何降低RL方法的样本复杂度进行了严格的理论分析。基于理论洞见,我们设计了一种内在奖励,以指导RL代理探索具有更多辅助经验的状态-动作空间,进一步利用FG的能力。实验结果表明,我们的方法极大地提高了在库存管理中应用强化学习的样本效率。我们的代码可在https://anonymous.4open.science/r/RLIMFG4IC-811D/上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决强化学习在库存控制中的样本效率问题和在线经验可能无法反映真实需求的问题。该问题是否新颖尚不确定。
  • 关键思路
    论文提出了一种决策框架,将强化学习与反馈图和内在动机探索相结合,以提高样本效率。其中,反馈图专为库存控制问题设计,生成丰富的侧面经验以帮助强化学习更新。理论分析表明,反馈图可以降低强化学习方法的样本复杂度。此外,论文还设计了内在奖励来指导强化学习代理人探索更多的状态-动作空间,进一步利用反馈图的能力。
  • 其它亮点
    论文的实验结果表明,该方法大大提高了在库存控制中应用强化学习的样本效率。代码已开源。
  • 相关研究
    在库存控制领域,最近的相关研究包括“Deep Reinforcement Learning for Inventory Management: A Review”和“Multi-echelon Inventory Optimization with Reinforcement Learning”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问