- 简介随机多臂赌博机(MABs)提供了一种基本的强化学习模型,用于研究不确定环境下的顺序决策。上置信界(UCB)算法催生了赌博算法的复兴,因为它在各种矩阵假设下实现了近乎最优的遗憾率。直到最近,大多数UCB方法都依赖于集中不等式,导致置信区间取决于通常在实践中未知的矩参数,例如方差代理。在本文中,我们提出了一种新的分布自由、数据驱动的UCB算法,用于对称奖励分布,无需矩信息。关键思想是将最近发展的重采样中位数方法的精细单侧版本与UCB相结合。我们证明了所提出的任何时候、无参数RMM-UCB方法的近乎最优遗憾界,即使对于重尾分布也是如此。
- 图表
- 解决问题本论文旨在解决在不确定环境下的顺序决策问题,提出了一种新的分布无关、数据驱动的上置信界算法,解决了传统算法需要已知矩参数的问题。
- 关键思路该论文的关键思路是将最近发展的重采样中位数算法与UCB相结合,提出了一种新的RMM-UCB算法,可以处理重尾分布问题。
- 其它亮点该论文提出的RMM-UCB算法不需要已知矩参数,是一种分布无关、数据驱动的算法;该算法在重尾分布问题上表现良好;实验结果表明,该算法的表现优于传统算法。
- 近年来,许多研究都在探索如何在不确定环境下做出顺序决策,其中包括经典的UCB算法以及其他变种,如KL-UCB算法、MOSS算法等。
沙发等你来抢
去评论
评论
沙发等你来抢