Tabular and Deep Learning for the Whittle Index

简介

本文介绍了两种强化学习算法QWI和QWINN，分别采用表格和深度学习实现Whittle指数的学习，用于解决Restless Multi-Armed Bandit Problems(RMABPs)问题。这两种算法采用两个时间尺度，较快的时间尺度用于更新状态-动作Q值，较慢的时间尺度用于更新Whittle指数。在主要的理论结果中，作者证明了表格实现的QWI算法收敛于真实的Whittle指数。作者还提出了基于神经网络的QWINN算法，用于计算更快的时间尺度上的Q值，能够从一个状态中推断出其他状态的信息，并且能够适应大状态空间环境。对于QWINN，作者证明了贝尔曼误差的所有局部极小值都是局部稳定平衡，这是基于DQN的方案的首个结果。数值计算表明，QWI和QWINN算法比标准的Q-learning算法、基于神经网络的近似Q-learning算法和其他现有算法都能更快地收敛。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出QWI和QWINN两种强化学习算法，用于解决多臂赌博机问题中的Whittle指数策略学习。
关键思路

QWI和QWINN使用两个时间尺度，一个较快的时间尺度用于更新状态-动作Q值，一个相对较慢的时间尺度用于更新Whittle指数。QWI是一种表格实现，可以收敛到真实的Whittle指数。QWINN是QWI算法的一种改进，使用神经网络计算快速时间尺度上的Q值，可以自然地扩展到大状态空间环境。
其它亮点

论文证明了QWI和QWINN比标准的Q学习算法、基于神经网络的近似Q学习和其他最先进的算法收敛更快。QWINN的所有贝尔曼误差的局部最小值都是局部稳定平衡，这是基于DQN的方案的首个结果。
相关研究

相关研究包括《Whittle指数策略的强化学习》、《使用深度Q网络的多臂赌博机问题》等。

Tabular and Deep Learning for the Whittle Index

提问交流

提问交流