值函数与优势函数的估计方法全面总结

作者：高新根博士(DeepRL-Lab研究员) 编辑：DeepRL

大部分强化学习算法中需要用到值函数（状态值函数或者动作值函数），估计值函数的方法主要有时序差分(Temporal-difference, TD)算法和蒙特卡罗(Monte Carlo, MC)方法。这些方法各有优缺点，TD算法的估计量具有高偏差(Bias)低方差(Variance)的特点，相反，MC算法的估计量具有低偏差高方差的特点。Hajime在2000年提出了一种巧妙地在偏差与方差间找平衡的方法，称为λ-return（按照Sutton的RL书的叫法）。TD(λ)是Sutton提出的能够使计算消耗更平均的λ-return的变种。

此外，一部分策略梯度(Policy Gradient)的方法经常会选择优势函数来构造策略梯度。泛化优势估计(Generalized Advantage Estimation, GAE)是John Schulman提出的估计优势函数的方法，它实际是将λ-return方法应用于估计优势函数的方法。

本篇文章将几个最基本的估计值函数的方法（包括TD、MC、λ-return和TD(λ)）以及估计优势函数的方法（GAE）放在一起介绍，为的是梳理这些方法之间的关系(文末讨论)，希望对读者有所帮助。除了常规介绍这些方法的具体内容外，笔者总结本文与其它相关文章的增加的主要信息有：

简单分析了这些方法偏差与方差的高低特点，比如为何说TD算法高偏差低方差。
简单梳理了这些方法之间的关系。

阅读本文后读者将能简单理解如下几个问题：

估计值函数的主要方法有哪些？(文章中将简单介绍这些方法)
为什么说TD(Temporal Difference Method )算法的估计量高偏差低方差？
为什么说MC(Monte Carlo Method)算法的估计量无偏差高方差？
λ-return如何做到在方差和方差间找平衡点的？
TD(λ)为何比λ-return有计算方面的优势？
TD、MC、λ-return以及TD(λ)之间的关系是什么？
策略梯度(Policy Gradient)方法为何经常用到优势函数（Advantage Function）？
最常用的优势函数的估计方法GAE(Generalized Advantage Estimation)与λ -return有什么关系？

感兴趣的可以继续戳链接。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

值函数与优势函数的估计方法全面总结

评论列表

评论