【标题】An Information-Theoretic Analysis of Bayesian Reinforcement Learning

【作者团队】Amaury Gouverneur, Borja Rodríguez-Gálvez, Tobias J. Oechtering, Mikael Skoglund

【发表日期】2022.7.18

【论文链接】https://arxiv.org/pdf/2207.08735.pdf

【推荐理由】基于Xu和Raginksy[1]提出的监督学习问题框架,本文研究了基于模型的贝叶斯强化学习问题的最佳可实现性能。为此,通过将最小贝叶斯后悔(MBR)定义为通过从收集的数据中学习或通过了解环境及其动态获得的最大预期累积回报之间的差异。并将此定义专门用于建模为马尔可夫决策过程(MDP)的强化学习问题,其核心参数对代理未知,其不确定性由先验分布表示。提出了一种推导MBR上界的方法,并基于相对熵和Wasserstein距离给出了具体的上界。然后,重点讨论了MDP的两种特殊情况,即多臂老虎机问题(MAB)和带有部分反馈的在线优化问题。对于后一个问题,研究证明了本文的界限可以从Russo和Van Roy[2]提出的当前信息论界限以下恢复。