李升波：将强化学习用于自动驾驶：技术挑战与发展趋势

将强化学习应用于自动驾驶领域存在诸多挑战，但是这些问题终有一天会被解决。强化学习具有超越人类的潜力，具有非常广阔的应用前景。

——李升波

10月27日下午，第11期AIR学术沙龙在清华大学智能产业研究院（AIR）图灵报告厅如期举行。本期活动荣幸地邀请到了清华大学车辆学院李升波教授为我们做题为《如何将强化学习应用在自动驾驶——谈强化学习技术发展和未来趋势》的报告。

讲者介绍：

李升波，清华大学车辆学院副院长，长聘教授。学习于斯坦福大学，密歇根大学和加州伯克利大学。从事智能网联汽车、强化学习、最优控制与估计等研究。发表SCI/EI论文＞130篇，入选ESI高引10篇，学术会议优秀论文奖11次。入选国家万人计划科技创新领军人才、交通部中青年科技创新领军人才、首届北京市基金委杰青、青年长江学者、国家基金委优青等。曾任IEEE ITS学会的全球理事会委员、中国汽车工程学会青工委主任（首任）、IEEE Trans on ITS副主编、 IEEE ITS Mag副主编等。

报告的内容主要包括：如何将强化学习应用于自动驾驶汽车、自动驾驶汽车的集成式决控框架（IDC），最后总结：

强化学习在自动驾驶领域具有非常广阔的应用前景。通过所提出的集成式决控（IDC）框架，可以有效地集成强化学习算法，实现自我更新、自我进化的能力；同时，学习得到的策略网络较为轻量化，具有更低的在线计算复杂度（与滚动时域优化相比），几乎可以达到毫秒级别的在线实时计算。针对Q函数的过估计问题以及样本采样效率低下的难题，团队提出了DSAC（Distributional Soft Actor-Critic）算法，利用分布式动作值函数，有效地抑制了值函数的过估计问题；所提出的MAC（Mixed Actor-Critic）算法，结合了数据驱动型和模型驱动型两类算法的优势，得到了更为精确的策略梯度以指导策略学习，同时利用后验分布有效地提升了样本使用效率。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

李升波：将强化学习用于自动驾驶：技术挑战与发展趋势

评论列表

评论