【教程简介】:本课程将重点关注强化学习,这是人工智能当前非常活跃的一个子领域,并将有选择地讨论一些基于近似动态规划 (DP) 方法的算法主题:价值和策略空间的近似、近似策略迭代 、推出(策略迭代的一次性形式)、模型预测控制、自适应控制、多智能体方法、具有挑战性的组合优化问题的应用、使用模拟和神经网络架构的实现,以及工程和人工智能应用。本课程将围绕一个称为价值空间近似的顺序决策体系结构展开,该体系结构涉及两个算法,这两个算法的设计基本上彼此独立,但协同工作,被称为离线训练和在线游戏算法。【教程链接】:http://web.mit.edu/dimitrib/www/RLbook.html
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢