Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond

2024年06月03日
  • 简介
    我们介绍了一种新的组合多臂赌博机(CMAB)框架,称为多变量和概率触发臂的组合多臂赌博机(CMAB-MT),其中每个臂的结果是$d$维多变量随机变量,反馈遵循一般的臂触发过程。与现有的CMAB作品相比,CMAB-MT不仅增强了建模能力,而且通过利用多变量随机变量的不同统计特性,可以获得改进的结果。对于CMAB-MT,我们提出了一般的1-范数多变量和触发概率调制平滑性条件,并基于此条件提出了一种乐观的CUCB-MT算法。我们的框架可以包括许多重要的应用问题,例如情节强化学习(RL)和商品分配的概率最大覆盖,所有这些问题都符合上述平滑性条件,并实现了与现有作品相匹配或改进的遗憾界限。通过我们的新框架,我们建立了情节RL和CMAB文献之间的第一个联系,通过提供一种新的角度来解决情节RL,从而可能鼓励这两个重要方向之间的更多交互。
  • 图表
  • 解决问题
    本论文旨在解决组合多臂赌博机中多元和概率触发臂的问题,提出了一种新的框架CMAB-MT,并尝试将这一框架应用于强化学习和商品分配等领域。
  • 关键思路
    CMAB-MT框架中的关键思路是1-范数多元和触发概率调制平滑性条件和基于此条件的乐观CUCB-MT算法。相比现有的CMAB研究,CMAB-MT不仅提高了建模能力,而且通过利用多元随机变量的不同统计特性,实现了改进的结果。
  • 其它亮点
    论文提出了一个新的框架CMAB-MT,并将其应用于强化学习和商品分配等领域,实现了与现有研究相当或更好的遗憾界。实验设计合理,使用了多个数据集,并提供了开源代码。此外,论文还建立了强化学习和CMAB文献之间的联系,为这两个重要方向提供了新的解决方案。
  • 相关研究
    在组合多臂赌博机和强化学习等领域,还有一些相关的研究,如CMAB、UCB、强化学习等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论