- 简介近年来,由于对高效可靠城市监控系统的需求不断增长,交通视频描述和分析受到了广泛关注。大多数现有方法只关注于定位交通事件片段,严重缺乏与事件中所有关注对象的行为和上下文相关的描述细节。本文提出了TrafficVLM,这是一种新颖的多模态密集视频字幕模型,适用于车辆自视角摄像头。TrafficVLM在空间和时间上以不同的分析级别对交通视频事件进行建模,并为事件不同阶段的车辆和行人生成长的精细描述。我们还提出了TrafficVLM的条件组件来控制生成输出以及多任务微调范式来增强TrafficVLM的学习能力。实验表明,TrafficVLM在车辆和俯视摄像头视图上表现良好。我们的解决方案在AI City Challenge 2024的第二轨中取得了优异的成绩,排名第三。我们的代码公开在https://github.com/quangminhdinh/TrafficVLM。
-
- 图表
- 解决问题本论文旨在解决交通视频描述和分析中存在的问题,即现有方法只关注定位交通事件,缺乏有关事件中所有关注对象的行为和上下文的描述细节。
- 关键思路TrafficVLM是一种新颖的多模态密集视频字幕模型,可用于车辆自我摄像机视图。TrafficVLM在不同的分析级别上对交通视频事件进行建模,包括空间和时间,并为事件不同阶段的车辆和行人生成长的细粒度描述。
- 其它亮点论文提出了TrafficVLM的条件组件来控制生成输出和多任务微调范式来增强TrafficVLM的学习能力。实验表明,TrafficVLM在车辆和俯视摄像机视图上表现良好。该解决方案在AI City Challenge 2024的第二轨中取得了优异的成绩,在挑战排名中排名第三。代码公开在https://github.com/quangminhdinh/TrafficVLM。
- 最近的相关研究包括:1. DenseCap: Fully Convolutional Localization Networks for Dense Captioning;2. Temporally Grounding Natural Sentence in Video;3. Video Captioning with Transferred Semantic Attributes。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流