【标题】Regret Bounds for Information-Directed Reinforcement Learning
【作者团队】Botao Hao, Tor Lattimore
【发表日期】2022.6.9
【论文链接】https://arxiv.org/pdf/2206.04640.pdf
【推荐理由】信息导向抽样 (IDS) 已表明了其作为强化学习 (RL) 数据高效算法的潜力。然而,对马尔可夫决策过程(MDP)的 IDS 的理论理解仍然有限。本文提出了新颖的信息论工具来约束关于学习目标的信息比率和累积信息增益。该理论结果阐明了选择学习目标的重要性,以便实践者可以平衡计算和遗憾约束。因此,推导出 vanilla-IDS 的无先验贝叶斯遗憾边界,它在表格有限视野 MDP 下学习整个环境。此外,还提出了一种计算效率高的正则化 IDS,它使加法形式而不是比率形式最大化,并表明它与 vanilla-IDS 具有相同的遗憾约束。借助率失真理论,通过学习一个替代的、信息量较少的环境来改善遗憾约束。此外,本文将分析扩展到线性 MDP,并证明了Thompson抽样作为by-product的类似遗憾约束。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢