Deep Attention Driven Reinforcement Learning (DAD-RL) for Autonomous Vehicle Decision-Making in Dynamic Environment

2024年07月12日
  • 简介
    自主驾驶汽车在城市环境中的决策制定由于与周围车辆的动态交互而具有固有挑战性。为了安全规划,自主驾驶汽车必须理解场景中各种时空交互的权重。现代作品使用巨大的变压器架构来编码交互,主要用于轨迹预测,从而增加了计算复杂性。为了解决这个问题,而不影响时空理解和性能,我们提出了简单的深度注意力驱动强化学习(DADRL)框架,它动态地分配和整合周围车辆的重要性到自我强化学习驱动的决策制定过程中。我们引入了一个以自主驾驶汽车为中心的时空注意力编码(STAE)机制,用于学习与不同周围车辆的动态交互。为了理解地图和路线上下文,我们使用上下文编码器从上下文地图中提取特征。时空表示与上下文编码相结合,提供了全面的状态表示。所得模型使用软演员评论算法(SAC)进行训练。我们在没有交通信号的SMARTS城市基准场景上评估了所提出的框架,以证明DADRL优于最新的现有方法。此外,消融研究强调了上下文编码器和时空注意力编码器在实现优越性能方面的重要性。
  • 图表
  • 解决问题
    本论文旨在解决自动驾驶车辆在城市环境中决策制定的问题,提出了一种简单的基于深度注意力驱动强化学习(DADRL)框架,该框架可以动态地将周围车辆的重要性分配给自主驾驶车辆的决策制定过程中。
  • 关键思路
    本论文提出了一种新颖的AV中心的时空注意编码机制,用于学习与不同周围车辆的动态交互,并通过上下文编码器来理解地图和路线上下文,从而提供全面的状态表示。同时,使用Soft Actor Critic(SAC)算法对模型进行训练。
  • 其它亮点
    论文在SMARTS城市基准测试场景中进行了评估,并证明了DADRL优于最新的现有方法。实验设计合理,使用了开源数据集。论文强调了上下文编码器和时空注意编码器在实现卓越性能方面的重要性。
  • 相关研究
    最近的相关研究包括:1)基于深度学习的自主驾驶车辆决策制定;2)基于强化学习的自主驾驶车辆决策制定;3)基于注意力机制的自主驾驶车辆轨迹预测。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论