图片

无人车(UGV)可替代人类自主地执行民用和军事任务,对未来智能 交通及陆军装备发展有重要战略意义。随着人工智能技术的日益成熟, 采用强化学习技术成为了无人车智能决策领域最受关注的发展趋势之 一。本文首先简要概述了强化学习的发展历程、基础原理和核心算法;随后,分析总结了强化学习在无人车智能决策中的研究进展,包括障碍 物规避、变道与超车、车道保持和道路交叉口通行四种典型场景;最后, 针对基于强化学习的智能决策面临的问题和挑战,探讨并展望了未来的 研究工作与潜在的研究方向。

https://xk.sia.cn/CN/10.13976/j.cnki.xk.2022.1493

1. 引言 

无人车是指不具有人类驾驶机构并可以自主执 行运输、公交、物流、清扫、巡逻、救援、作战、侦 察等民用或军用任务的智能车辆。在民用领域,无 人车已成为未来智能交通与智慧城市建设的核心要素。在军用领域,无人车也已成为各军事大国竞相 角逐的新一代陆军装备。无人车的核心技术主要有 环境感知、智能决策、路径规划、动力学控制、集 群调度等相关技术。其中,智能决策是无人车的关 键核心技术之一,其性能是衡量无人车智能化水平 的重要标准。智能决策系统根据任务调度信息、环 境感知信息和无人车状态信息等,做出合理、安全 的驾驶决策,并输出车辆控制指令,以控制车辆完 成指定任务。

无人车智能决策系统的算法主要包含规则驱 动[1-2] 和数据驱动两类算法[3-4] 。由规则驱动的决 策系统基于既定规则构建,其根据人类驾驶经验及 交通规则等建立相应的驾驶行为决策库,结合感知 系统得到的环境信息进行车辆状态的划分,依据预 设的规则逻辑确认车辆行为[5] 。这类基于规则的 决策系统无法枚举和覆盖所有交通场景,且在交通 复杂、不确定性强的路况中,常因规则数目冗杂和 行为决策库触发条件的重叠而导致决策无法求解、 决策系统的自适应性和鲁棒性不足等问题。基于强 化学习的决策方法是数据驱动的无人车决策系统的 代表,该方法将无人车决策过程视为黑箱,利用机 器学习建立由传感器到转向系统、驱动系统、制动 系统等执行机构的映射,实现基于高维度感知数据 对执行机构的直接控制。这类决策算法把整个自动 驾驶过程与神经网络深度融合,通过由数据驱动的 仿真训练使神经网络学习在不同交通场景下的智能 决策能力。

强化学习技术是人工智能领域的研究热点,适 用于 解 决 复 杂 的 序 贯 决 策 问 题,在 机 器 人 控 制[6-7] 、调度优化[8-9] 、多智能体协同[10-11] 等领域 中,取得了令人瞩目的成果。强化学习的基本思路 是智能体依靠探索试错以及环境交互的方式,结合 反馈信号学习最优策略。近些年,随着强化学习的 广泛研究和应用,特别是综合了深度学习的特征提 取能力和强化学习的策略优化能力的深度强化学习 (deepreinforcementlearning,DRL)取得突破性进展 之后,采用强化学习技术解决无人车智能决策问题 成为无人车领域最受关注的研究方向之一。

本文旨在综述强化学习在无人车领域的应用。首先介绍了强化学习的发展历史、基础原理和核心 算法;然后分析总结了强化学习在无人车智能决策 问题中的研究现状,包括避障、变道与超车、车道 保持及道路交叉口通行四个典型的决策场景;最后 探讨并展望了未来的研究工作和潜在的研究方向。

内容中包含的图片若涉及版权问题,请及时与我们联系删除