Demystifying Deep Reinforcement Learning-Based Autonomous Vehicle Decision-Making

2024年03月18日
  • 简介
    随着强化学习领域中通用函数逼近器的出现,利用深度强化学习(DRL)的实际应用数量激增。在自动驾驶任务中,决策已成为其中的主要应用,将传感器数据或高阶运动变量作为输入,提供离散选择或连续控制输出。然而,模型的黑匣子特性是限制DRL在自动驾驶汽车(AVs)中实际应用的重大限制。因此,在这项研究中,我们关注的是基于注意力的DRL框架的可解释性。我们使用基于连续近端策略优化的DRL算法作为基线模型,并在开源AV模拟环境中添加了一个多头注意力框架。我们提供了一些分析技术,以讨论训练模型的可解释性和空间和时间相关性的因果关系。我们表明,第一个头中的权重编码邻近车辆的位置,而第二个头则专注于领先车辆。此外,自我车辆的动作在空间和时间上是因果依赖于目标车道中的车辆。通过这些发现,我们可靠地表明这些技术可以帮助从业人员解释DRL算法的结果。
  • 图表
  • 解决问题
    本论文旨在提高深度强化学习(DRL)在自动驾驶领域的可解释性,以解决其黑盒模型的限制问题。
  • 关键思路
    论文提出了一种基于多头注意力机制的DRL框架,并通过分析技术探讨了模型的可解释性和因果性。研究表明,第一头注意力的权重编码了邻近车辆的位置,而第二头注意力则专注于领头车辆。此外,自车的行动在空间和时间上都与目标车道的车辆有因果关系。
  • 其它亮点
    论文使用了连续近端策略优化(PPO)算法作为基线模型,并在开源自动驾驶仿真环境中添加了多头注意力机制。实验结果表明,该框架能够提高模型的可解释性和因果性。研究者还提供了一些分析技术,帮助从业者解释DRL算法的结果。值得关注的是,该框架能够帮助解释模型对邻近车辆和领头车辆的关注度,并揭示自车行动与目标车道车辆的因果关系。
  • 相关研究
    近期相关研究包括《Deep Reinforcement Learning for Autonomous Driving: A Survey》、《Interpretable Deep Reinforcement Learning Through Policy Extraction》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论