端到端自动驾驶会是未来的主流吗？罗列下近几年顶会的方法！

端到端驱动方法旨在建立一个驱动模型，在每个时间戳将传感器读数（RGB和LiDAR）、高级导航命令和车辆状态映射到原始控制命令。原始控制命令通常包括转向、油门和刹车。基于该命令，自动驾驶汽车可以从起点行驶到目标点，而不会发生碰撞和违反交通规则。传统的模块化流水线使用许多独立的模块，如预测、定位、场景理解、行为预测和路径规划等。这些模块中的每一个都是为自己的目的而设计、训练和评估的。相反，端到端方法从传感器输入到原始控制，跳过其间的所有内容。大部分工作都是在CARLA上实现的，CARLA是一个用于自动驾驶研究的开源城市模拟器。模拟器提供了为此目的创建的开放数字资产（城市布局、建筑、车辆），并支持传感器套件和环境条件的灵活规范。其他模拟器包括相扑、MetaDrive和SMARTS。最近的端到端驱动方法可以分为两个主流：模仿学习和强化学习。强化学习（RL）是机器学习中最有趣的领域之一，其中代理通过遵循策略与环境交互。在环境的每一个状态下，它都会根据策略采取行动，从而获得奖励并过渡到新状态。RL的目标是学习使长期累积回报最大化的最优策略。在模仿学习中，专家（通常是人类）为我们提供了一组演示，而不是试图从稀疏的奖励中学习或手动指定奖励函数。然后，代理尝试通过模仿专家的决策来学习最优策略。下面为大家汇总了近三年的一些端到端工作，虽然不多，但确实是一个很值得研究的领域！

1）用于端到端自动驾驶的多模态融合transformer（CVPR2021）

论文名称：Multi-Modal Fusion Transformer for End-to-End Autonomous Driving如何将互补传感器的表示集成到自动驾驶中？基于几何的传感器融合在目标检测和运动预测等感知任务中显示出巨大的前景。然而，对于实际驾驶任务，3D场景的全局上下文是关键，例如，交通灯状态的变化可以影响几何上远离该交通灯的车辆的行为。因此，单独的几何结构可能不足以有效地融合端到端驱动模型中的表示。本文证明了基于现有传感器融合方法的模拟学习策略在高密度动态代理和复杂场景的存在下表现不佳，这些场景需要全局上下文推理，例如在不受控制的交叉口处处理来自多个方向的迎面而来的交通。因此，作者提出了一种新的多模态融合transformer：TransFuser，以利用注意力来集成图像和激光雷达表示。使用CARLA城市驾驶模拟器在涉及复杂场景的城市环境中通过实验验证了论文方法的有效性。与基于几何的融合相比，本文的方法实现了最先进的驾驶性能，同时减少了76%的碰撞。

2）通过观看YouTube视频学习驾驶（ECCV2022）

论文名称：Learning to Drive by Watching YouTube Videos: Action-Conditioned Contrastive Policy Pretraining深度视觉运动策略学习旨在将原始视觉观察映射到行动，在机器人操纵和自动驾驶等控制任务中取得了很好的结果。然而，它需要与培训环境进行大量的在线交互，这限制了它的实际应用。与流行的用于视觉识别的无监督特征学习相比，用于视觉运动控制任务的特征预训练的研究要少得多。在这项工作中，我们的目标是通过观看长达数小时的未分级YouTube视频来预处理驾驶任务的政策表示。具体来说，我们用少量标记数据训练一个逆动态模型，并使用它来预测所有YouTube视频帧的动作标签。然后开发了一种新的对比策略预训练方法，以从带有伪动作标签的视频帧中学习动作条件特征。实验表明，所得到的动作条件特征对于下游的强化学习和模仿学习任务获得了实质性的改进，优于从先前的无监督学习方法和ImageNet预处理的权重！本文评估了各种任务的行动条件预训练的有效性，例如端到端自动驾驶中通过模仿学习（IL）和强化学习（RL）进行的策略学习，以及车道检测（LD），实验结果表明，ACO成功地学习了下游任务的可推广特征。贡献总结如下：1.提出了一种对大量真实世界驾驶视频进行政策预训练的新范式；2.开发了一种新的行动条件对比学习方法ACO，以学习与行动相关的特征；3.在下游策略学习任务中的各种预训练方法的实验表明，所提出的方法产生的特征在驱动任务中获得了足够的性能增益；

3）Learning from All Vehicles（CVPR2022）

这篇论文提出了一个系统来训练驾驶政策，不仅从ego-vehicle，而且从它观察到的所有车辆收集到的经验。该系统使用其他代理的行为来创建更多样的驾驶场景，而无需收集额外数据。从其它车辆学习的主要困难是没有传感器信息，论文使用一组监督任务来学习对控制车辆的视点不变的中间表示。这不仅在训练时提供了更丰富的信号，还允许在推理过程中进行更复杂的推理。学习所有车辆的驾驶方式有助于预测测试时的行为，并避免碰撞，在闭环驾驶模拟中评估了该系统。本文的系统大大超过了公共CARLA排行榜上的所有现有方法，驾驶得分提高了25分，路线完成率提高了24分!本文的框架，从所有车辆学习（LAV），在一个联合识别、预测和规划堆栈中处理感知和运动的部分可观测性，论文使用特权蒸馏方法将感知和行动的部分可观测性挑战解耦。LAV首先学习感知模型，该感知模型使用来自3D检测和分割任务的辅助监督来输出视点不变表示。根据定义，该辅助任务不区分自我车辆和场景中的其他车辆，因此学习视点不变表示。它处理传感器的部分可观测性，同时，LAV学习特权运动规划器。使用未来的路线点来表示运动计划，而不是预测转向和加速度，这仅适用于自车车辆。使用GT计算机视觉标签作为特权运动规划器的输入，计算机视觉标签确保视点不变，路点提供运动的不变表示。特权运动规划器预测所有附近车辆的轨迹，并推断其高级命令。最后使用特权蒸馏将两个模型结合在一个联合框架中，该最终蒸馏使用感知模型的视点不变视觉特征从所有车辆学习运动预测模型，提取的策略仅从原始传感器输入驱动。论文在CARLA驾驶模拟器中验证了方法，在提交时，在CARLA公共排行榜上排名第一，它获得61.85的驾驶分数和94.46的路线完成率。这两种方法在所有方法中都是最高的，并且大大超过了现有的最先进方法，分别将驾驶分数和路线完成率提高了25和24分。

4）COOPERNAUT：端到端驾驶与网络车辆的协作感知（CVPR2022）

论文名称：COOPERNAUT: End-to-End Driving with Cooperative Perception for Networked Vehicles用于自动驾驶汽车的光学传感器和学习算法在过去几年中取得了巨大的进步。尽管如此，当今自动驾驶汽车的可靠性受到视线感知能力有限和数据驱动方法在处理极端情况时的脆弱性的阻碍。随着电信技术的最新发展，与车对车通信的协作感知已成为在危险或紧急情况下增强自动驾驶的一个有前途的范例。本文介绍了COOPERNAUT，这是一种端到端的学习模型，它使用跨车辆感知进行基于视觉的协作驾驶。模型将LiDAR信息编码为紧凑的基于点的表示，可以通过真实的无线信道在车辆之间作为消息传输。为了评估模型，作者开发了AUTOCASTSIM，这是一个网络增强的驾驶模拟框架，具有示例事故多发场景。在AUTOCASTSIM上的实验表明，提出的协作感知驾驶模型在这些具有挑战性的驾驶情况下比以egocentric驾驶模型平均成功率提高了40%，带宽需求比先前的V2VNet小5倍！！！

5）端到端自动驾驶的轨迹引导控制预测：一个简单但强大的基线（NIPS2022）

论文名称：Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline（NIPS2022）当前的端到端自动驾驶方法要么基于计划的轨迹运行控制器，要么直接执行控制预测，这已经跨越了两个单独研究的研究领域。鉴于它们彼此潜在的互惠互利，本文主动探索这两个的结合。具体来说，论文的综合方法有两个分支，分别用于轨迹规划和直接控制。轨迹分支预测未来轨迹，而控制分支涉及一种新颖的多步预测方案，从而可以推断当前动作和未来状态之间的关系。这两个分支被连接，使得控制分支在每个时间步从轨迹分支接收相应的引导，然后将两个分支的输出融合以实现互补优势。使用CARLA模拟器在具有挑战性场景的闭环城市驾驶环境中评估结果，即使使用单目相机输入，所提出的方法在官方CARLA排行榜上排名第一，以大幅度超过其他具有多传感器或融合机制的复杂候选方法！

代码：https://github.com/OpenPerceptionX/TCP

利用来自两个分支的预测轨迹和控制信号，作者提出了一种基于情况的融合方案，根据实验结果和先验知识，以自集成的方式自适应地组合这两种形式，以形成最终输出。它结合了这两种形式中的最佳形式，从而进一步提高了不同场景下的性能。当在CARLA驾驶模拟器中进行验证时，TCP显示出优异的性能，论文的方法仅使用单目摄像头，驾驶成绩达到75.137分，在公共CARLA排行榜上排名第一，甚至超过了使用多个摄像头和激光雷达的现有最先进方法13.291分。本文的主要贡献包括：1.论文研究了端到端自动驾驶的两种主要模式：轨迹规划和直接控制，并建议将它们结合在一个集成的学习pipelines中，这是第一次联合学习和融合这两个分支进行预测。2.设计了具有时间模块和轨迹引导注意力的多步骤控制预测分支，以实现时间推理，为了结合两个分支的优点，作者设计了一个基于情境的方案来融合两个输出。3.作为一个简单但强大的基线，本文的方法仅使用单目摄像头作为输入，在CARLA排行榜上实现了新的最先进水平，许多竞争对手使用了多个传感器。作者进行了充分的消融研究，以验证方法的有效性。

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向；

添加汽车人助理微信邀请入群

备注：学校/公司+方向+昵称

内容中包含的图片若涉及版权问题，请及时与我们联系删除