【标题】A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning

【作者团队】Zixiang Chen, Chris Junchi Li, Angela Yuan

【发表日期】2022.10.3

【论文链接】https://arxiv.org/pdf/2209.15634.pdf

【推荐理由】随着对处理大的状态和动作空间的需求的增加,一般函数逼近已成为强化学习(RL)中的一项关键技术。本文提出了一个统一基于模型和无模型RL的通用框架,以及一个可接受的Bellman表征(ABC)类,该类包含了文献中关于可处理RL的几乎所有Markov决策过程(MDP)模型。作者提出了一种新的具有可分解结构性质的估计函数,用于基于优化的探索,并将函数回避维数作为ABC类的复杂性度量。在本文的框架下,作者提出了一种新的样本有效算法,即基于OPtimization的ExploRation with Approximation(OPERA),实现了与各种MDP模型的最著名结果相匹配或改进的遗憾边界。特别是,对于见证级别较低的MDP,在稍强的假设下,OPERA将最先进的样本复杂性结果提高了dH倍。