作者:高新根博士(DeepRL-Lab研究员) 编辑:DeepRL

大部分强化学习算法中需要用到值函数(状态值函数或者动作值函数),估计值函数的方法主要有时序差分(Temporal-difference, TD)算法和蒙特卡罗(Monte Carlo, MC)方法。这些方法各有优缺点,TD算法的估计量具有高偏差(Bias)低方差(Variance)的特点,相反,MC算法的估计量具有低偏差高方差的特点。Hajime在2000年提出了一种巧妙地在偏差与方差间找平衡的方法,称为λ-return(按照Sutton的RL书的叫法)。TD(λ)是Sutton提出的能够使计算消耗更平均的λ-return的变种。

此外,一部分策略梯度(Policy Gradient)的方法经常会选择优势函数来构造策略梯度。泛化优势估计(Generalized Advantage Estimation, GAE)是John Schulman提出的估计优势函数的方法,它实际是将λ-return方法应用于估计优势函数的方法。

本篇文章将几个最基本的估计值函数的方法(包括TD、MC、λ-return和TD(λ))以及估计优势函数的方法(GAE)放在一起介绍,为的是梳理这些方法之间的关系(文末讨论),希望对读者有所帮助。除了常规介绍这些方法的具体内容外,笔者总结本文与其它相关文章的增加的主要信息有:

  • 简单分析了这些方法偏差与方差的高低特点,比如为何说TD算法高偏差低方差。
  • 简单梳理了这些方法之间的关系。

阅读本文后读者将能简单理解如下几个问题:

  • 估计值函数的主要方法有哪些?(文章中将简单介绍这些方法)
  • 为什么说TD(Temporal Difference Method )算法的估计量高偏差低方差?
  • 为什么说MC(Monte Carlo Method)算法的估计量无偏差高方差?
  • λ-return如何做到在方差和方差间找平衡点的?
  • TD(λ)为何比λ-return有计算方面的优势?
  • TD、MC、λ-return以及TD(λ)之间的关系是什么?
  • 策略梯度(Policy Gradient)方法为何经常用到优势函数(Advantage Function)?
  • 最常用的优势函数的估计方法GAE(Generalized Advantage Estimation)与λ -return有什么关系?

感兴趣的可以继续戳链接。

内容中包含的图片若涉及版权问题,请及时与我们联系删除