An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models

向作者提问

NEW

简介

传统的统计学习通常假设数据点是独立同分布的，遵循一个未知的概率分布。本文提出了一种对立的观点，将数据点视为相互关联的，并采用马尔可夫奖励过程（MRP）进行数据建模。我们重新制定了典型的监督学习，将其作为强化学习（RL）中的政策评估问题，在此引入了广义时间差分（TD）学习算法作为解决方案。从理论上讲，我们的分析建立了线性TD学习和普通最小二乘（OLS）的解决方案之间的联系。我们还表明，在特定条件下，特别是当噪声相关时，TD的解决方案证明是比OLS更有效的估计器。此外，我们建立了我们的广义TD算法在线性函数逼近下的收敛性。实证研究验证了我们的理论结果，检查了我们的TD算法的重要设计，并展示了在各种数据集上的实用性，包括使用深度学习进行回归和图像分类等任务。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图通过引入马尔可夫奖励过程（MRP）来解决数据点之间的联系问题，提出了一种新的数据建模方法。同时，论文还试图验证在特定条件下，广义时间差分（TD）算法的解决方案比普通最小二乘法（OLS）更为有效。
关键思路

论文提出了一种新的数据建模方法，将传统的独立同分布假设转化为数据点之间的相互联系，并将监督学习视为强化学习中的on-policy策略评估问题，提出了广义TD学习算法作为解决方案。
其它亮点

论文的亮点在于提出了一种新的数据建模方法，并且通过理论分析和实验验证了广义TD算法在特定条件下的有效性。实验使用了多个数据集，包括深度学习中的回归和图像分类任务，并且开源了代码。此外，论文还建立了广义TD算法在线性函数逼近下的收敛性。
相关研究

最近的相关研究包括使用强化学习进行数据建模的研究，如基于深度强化学习的数据建模和基于强化学习的时间序列预测等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问