加利福尼亚大学|强化学习中样本有效函数逼近的通用框架

【标题】A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning

【作者团队】Zixiang Chen, Chris Junchi Li, Angela Yuan

【发表日期】2022.10.3

【论文链接】https://arxiv.org/pdf/2209.15634.pdf

【推荐理由】随着对处理大的状态和动作空间的需求的增加，一般函数逼近已成为强化学习（RL）中的一项关键技术。本文提出了一个统一基于模型和无模型RL的通用框架，以及一个可接受的Bellman表征（ABC）类，该类包含了文献中关于可处理RL的几乎所有Markov决策过程（MDP）模型。作者提出了一种新的具有可分解结构性质的估计函数，用于基于优化的探索，并将函数回避维数作为ABC类的复杂性度量。在本文的框架下，作者提出了一种新的样本有效算法，即基于OPtimization的ExploRation with Approximation（OPERA），实现了与各种MDP模型的最著名结果相匹配或改进的遗憾边界。特别是，对于见证级别较低的MDP，在稍强的假设下，OPERA将最先进的样本复杂性结果提高了dH倍。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

加利福尼亚大学|强化学习中样本有效函数逼近的通用框架

评论