- 简介本文中,我们提出了一个名为AccidentBlip2的多模态大型语言模型,利用多模态大型语言模型在多模态推理领域的出色能力,用于复杂交通环境下的环境描述和场景理解,能够实时预测事故风险是否会发生。我们的方法基于六视图环视图形的时间场景和通过视觉变换器进行时间推理的时间 blip 框架的特征提取。然后,我们将生成的时间标记输入到MLLM中进行推理,以确定是否会发生事故。由于AccidentBlip2不依赖于任何BEV图像和LiDAR,因此MLLM的推理参数数量和推理成本可以显著降低,并且在训练期间也不会产生大量的训练开销。AccidentBlip2在DeepAccident数据集上表现优异,并且还可以为端到端自动驾驶事故预测提供参考解决方案。
-
- 图表
- 解决问题论文旨在利用多模态大语言模型进行交通环境中的事故预测,解决自动驾驶事故预测的问题。
- 关键思路论文提出了AccidentBlip2,通过视觉变换器和多模态大语言模型的推理,结合六视图环绕视图图表的时间场景进行特征提取和时间推理,实现实时事故风险预测。相比于现有方法,AccidentBlip2不需要BEV图像和LiDAR,可以显著减少推理参数和推理成本,并且训练开销较小。
- 其它亮点论文在DeepAccident数据集上取得了优异的预测效果,并且提供了一个端到端的自动驾驶事故预测参考解决方案。实验设计详细,数据集和代码均已开源。
- 在最近的相关研究中,也有一些利用多模态大语言模型进行场景理解和预测的研究,如VisualBERT、ViLBERT、LXMERT等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流