Tabular and Deep Learning for the Whittle Index

2024年06月04日
  • 简介
    本文介绍了两种强化学习算法QWI和QWINN,分别采用表格和深度学习实现Whittle指数的学习,用于解决Restless Multi-Armed Bandit Problems(RMABPs)问题。这两种算法采用两个时间尺度,较快的时间尺度用于更新状态-动作Q值,较慢的时间尺度用于更新Whittle指数。在主要的理论结果中,作者证明了表格实现的QWI算法收敛于真实的Whittle指数。作者还提出了基于神经网络的QWINN算法,用于计算更快的时间尺度上的Q值,能够从一个状态中推断出其他状态的信息,并且能够适应大状态空间环境。对于QWINN,作者证明了贝尔曼误差的所有局部极小值都是局部稳定平衡,这是基于DQN的方案的首个结果。数值计算表明,QWI和QWINN算法比标准的Q-learning算法、基于神经网络的近似Q-learning算法和其他现有算法都能更快地收敛。
  • 作者讲解
  • 图表
  • 解决问题
    提出QWI和QWINN两种强化学习算法,用于解决多臂赌博机问题中的Whittle指数策略学习。
  • 关键思路
    QWI和QWINN使用两个时间尺度,一个较快的时间尺度用于更新状态-动作Q值,一个相对较慢的时间尺度用于更新Whittle指数。QWI是一种表格实现,可以收敛到真实的Whittle指数。QWINN是QWI算法的一种改进,使用神经网络计算快速时间尺度上的Q值,可以自然地扩展到大状态空间环境。
  • 其它亮点
    论文证明了QWI和QWINN比标准的Q学习算法、基于神经网络的近似Q学习和其他最先进的算法收敛更快。QWINN的所有贝尔曼误差的局部最小值都是局部稳定平衡,这是基于DQN的方案的首个结果。
  • 相关研究
    相关研究包括《Whittle指数策略的强化学习》、《使用深度Q网络的多臂赌博机问题》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问