An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models

2024年04月23日
  • 简介
    传统的统计学习通常假设数据点是独立同分布的,遵循一个未知的概率分布。本文提出了一种对立的观点,将数据点视为相互关联的,并采用马尔可夫奖励过程(MRP)进行数据建模。我们重新制定了典型的监督学习,将其作为强化学习(RL)中的政策评估问题,在此引入了广义时间差分(TD)学习算法作为解决方案。从理论上讲,我们的分析建立了线性TD学习和普通最小二乘(OLS)的解决方案之间的联系。我们还表明,在特定条件下,特别是当噪声相关时,TD的解决方案证明是比OLS更有效的估计器。此外,我们建立了我们的广义TD算法在线性函数逼近下的收敛性。实证研究验证了我们的理论结果,检查了我们的TD算法的重要设计,并展示了在各种数据集上的实用性,包括使用深度学习进行回归和图像分类等任务。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图通过引入马尔可夫奖励过程(MRP)来解决数据点之间的联系问题,提出了一种新的数据建模方法。同时,论文还试图验证在特定条件下,广义时间差分(TD)算法的解决方案比普通最小二乘法(OLS)更为有效。
  • 关键思路
    论文提出了一种新的数据建模方法,将传统的独立同分布假设转化为数据点之间的相互联系,并将监督学习视为强化学习中的on-policy策略评估问题,提出了广义TD学习算法作为解决方案。
  • 其它亮点
    论文的亮点在于提出了一种新的数据建模方法,并且通过理论分析和实验验证了广义TD算法在特定条件下的有效性。实验使用了多个数据集,包括深度学习中的回归和图像分类任务,并且开源了代码。此外,论文还建立了广义TD算法在线性函数逼近下的收敛性。
  • 相关研究
    最近的相关研究包括使用强化学习进行数据建模的研究,如基于深度强化学习的数据建模和基于强化学习的时间序列预测等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问