- 简介我们介绍了一种新的组合多臂赌博机(CMAB)框架,称为多变量和概率触发臂的组合多臂赌博机(CMAB-MT),其中每个臂的结果是$d$维多变量随机变量,反馈遵循一般的臂触发过程。与现有的CMAB作品相比,CMAB-MT不仅增强了建模能力,而且通过利用多变量随机变量的不同统计特性,可以获得改进的结果。对于CMAB-MT,我们提出了一般的1-范数多变量和触发概率调制平滑性条件,并基于此条件提出了一种乐观的CUCB-MT算法。我们的框架可以包括许多重要的应用问题,例如情节强化学习(RL)和商品分配的概率最大覆盖,所有这些问题都符合上述平滑性条件,并实现了与现有作品相匹配或改进的遗憾界限。通过我们的新框架,我们建立了情节RL和CMAB文献之间的第一个联系,通过提供一种新的角度来解决情节RL,从而可能鼓励这两个重要方向之间的更多交互。
- 图表
- 解决问题本论文旨在解决组合多臂赌博机中多元和概率触发臂的问题,提出了一种新的框架CMAB-MT,并尝试将这一框架应用于强化学习和商品分配等领域。
- 关键思路CMAB-MT框架中的关键思路是1-范数多元和触发概率调制平滑性条件和基于此条件的乐观CUCB-MT算法。相比现有的CMAB研究,CMAB-MT不仅提高了建模能力,而且通过利用多元随机变量的不同统计特性,实现了改进的结果。
- 其它亮点论文提出了一个新的框架CMAB-MT,并将其应用于强化学习和商品分配等领域,实现了与现有研究相当或更好的遗憾界。实验设计合理,使用了多个数据集,并提供了开源代码。此外,论文还建立了强化学习和CMAB文献之间的联系,为这两个重要方向提供了新的解决方案。
- 在组合多臂赌博机和强化学习等领域,还有一些相关的研究,如CMAB、UCB、强化学习等。
沙发等你来抢
去评论
评论
沙发等你来抢