摘要: 随着近年来预测和识别类的人工智能技术日渐成熟,人工智能的应用场景逐渐扩展到决策场景,其解决方案之一就是强化学习。不同于有监督学习,强化学习是基于决策智能体和动态环境的交互产生的数据来训练智能体策略,而策略一旦发生改变,其交互产生的数据分布也随之改变,这一特点源自决策和预测的不同,也造就了强化学习技术的很多独特之处。本次课为强化学习的先导课,上半部分介绍强化学习的基础数学概念、思维方式和经典算法,下半部分介绍深度强化学习近年来的发展情况,诠释该领域关注的主要研究问题和目前的解决方法,并展示强化学习应用落地的现状和面临的挑战。

简介: 张伟楠博士现任上海交通大学电子信息与电气工程学院约翰·霍普克罗夫特计算机科学中心长聘教轨副教授,科研领域包括强化学习、深度学习、数据科学、知识图谱及其互联网个性化服务、游戏智能等场景中的应用,相关的研究成果在国际会议和期刊上发表超过80篇学术论文。张伟楠长期担任ICML、NeurIPS、ICLR、KDD、AAAI、IJCAI、SIGIR等机器学习和数据科学的会议(高级)程序委员和JMLR、TOIS、TKDE、TIST等期刊的评审以及FCS的青年编委。张伟楠于2017年获得上海ACM新星奖;2018年获华为最佳合作贡献奖;2018年获首届达摩院青橙奖;2017年获ACM国际信息检索会议SIGIR的最佳论文提名奖;2019年获ACM SIGKDD深度学习实践研讨会最佳论文奖。张伟楠于2011年在上海交通大学计算机系ACM班获得学士学位,于2016年在伦敦大学学院计算机系获得博士学位。