- 简介本文介绍了两种强化学习算法QWI和QWINN,分别采用表格和深度学习实现Whittle指数的学习,用于解决Restless Multi-Armed Bandit Problems(RMABPs)问题。这两种算法采用两个时间尺度,较快的时间尺度用于更新状态-动作Q值,较慢的时间尺度用于更新Whittle指数。在主要的理论结果中,作者证明了表格实现的QWI算法收敛于真实的Whittle指数。作者还提出了基于神经网络的QWINN算法,用于计算更快的时间尺度上的Q值,能够从一个状态中推断出其他状态的信息,并且能够适应大状态空间环境。对于QWINN,作者证明了贝尔曼误差的所有局部极小值都是局部稳定平衡,这是基于DQN的方案的首个结果。数值计算表明,QWI和QWINN算法比标准的Q-learning算法、基于神经网络的近似Q-learning算法和其他现有算法都能更快地收敛。
-
- 图表
- 解决问题提出QWI和QWINN两种强化学习算法,用于解决多臂赌博机问题中的Whittle指数策略学习。
- 关键思路QWI和QWINN使用两个时间尺度,一个较快的时间尺度用于更新状态-动作Q值,一个相对较慢的时间尺度用于更新Whittle指数。QWI是一种表格实现,可以收敛到真实的Whittle指数。QWINN是QWI算法的一种改进,使用神经网络计算快速时间尺度上的Q值,可以自然地扩展到大状态空间环境。
- 其它亮点论文证明了QWI和QWINN比标准的Q学习算法、基于神经网络的近似Q学习和其他最先进的算法收敛更快。QWINN的所有贝尔曼误差的局部最小值都是局部稳定平衡,这是基于DQN的方案的首个结果。
- 相关研究包括《Whittle指数策略的强化学习》、《使用深度Q网络的多臂赌博机问题》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流