谷歌研究院|强化学习的谱分解表示

【标题】Spectral Decomposition Representation for Reinforcement Learning

【作者团队】Tongzheng Ren, Tianjun Zhang, Lisa Lee

【发表日期】2022.8.19

【论文链接】https://arxiv.org/pdf/2208.09515.pdf

【推荐理由】表示学习通常通过管理维数灾难在强化学习中发挥关键作用。一类具有代表性的算法利用随机过渡动力学的谱分解来构建在理想化环境中具有强大理论特性的表示。然而，当前的谱方法的适用性有限，因为它们是为仅状态聚合而构建的，并且是从依赖于策略的转换内核中派生出来的，而没有考虑探索问题。为了解决这些问题，本文提出了一种替代的光谱方法，即光谱分解表示 (SPEDER)，它从动态中提取状态-动作抽象，而不会引起对数据收集策略的虚假依赖，同时还平衡了学习过程中的探索与利用权衡。理论分析确定了所提出算法在在线和离线设置下的采样效率。此外，一项实验研究表明，在多个基准测试中，性能优于当前最先进的算法。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

谷歌研究院|强化学习的谱分解表示

评论