- 简介这些讲义从统计学的角度介绍了强化学习和交互式决策制定的基础。我们提出了一个统一的框架来解决探索-利用困境,使用频率主义和贝叶斯方法,并以监督学习/估计和决策制定之间的联系和类比为主题。特别关注函数逼近和灵活的模型类,例如神经网络。涵盖的主题包括多臂赌博机和情境赌博机,结构化赌博机以及具有高维反馈的强化学习。
-
- 图表
- 解决问题本篇论文探讨强化学习和交互式决策制定的统计学基础,旨在解决探索-利用困境。
- 关键思路论文提出了一种统一的框架,使用频率学派和贝叶斯方法来解决探索-利用困境,强调了监督学习/估计和决策制定之间的联系和相似之处。特别关注函数逼近和灵活的模型类,如神经网络。
- 其它亮点论文涵盖了多臂和上下文臂、结构臂以及具有高维反馈的强化学习等主题。实验设计充分,使用了多个数据集,并提供了开源代码。值得进一步研究的工作包括如何在更复杂的环境中应用这种框架以及如何处理更大规模的数据集。
- 在这个领域中,最近的相关研究包括“Deep Reinforcement Learning”(Mnih等人,2015)、“Proximal Policy Optimization Algorithms”(Schulman等人,2017)和“Trust Region Policy Optimization”(Schulman等人,2015)等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流