TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning

2024年04月14日
  • 简介
    近年来,由于对高效可靠城市监控系统的需求不断增长,交通视频描述和分析受到了广泛关注。大多数现有方法只关注于定位交通事件片段,严重缺乏与事件中所有关注对象的行为和上下文相关的描述细节。本文提出了TrafficVLM,这是一种新颖的多模态密集视频字幕模型,适用于车辆自视角摄像头。TrafficVLM在空间和时间上以不同的分析级别对交通视频事件进行建模,并为事件不同阶段的车辆和行人生成长的精细描述。我们还提出了TrafficVLM的条件组件来控制生成输出以及多任务微调范式来增强TrafficVLM的学习能力。实验表明,TrafficVLM在车辆和俯视摄像头视图上表现良好。我们的解决方案在AI City Challenge 2024的第二轨中取得了优异的成绩,排名第三。我们的代码公开在https://github.com/quangminhdinh/TrafficVLM。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决交通视频描述和分析中存在的问题,即现有方法只关注定位交通事件,缺乏有关事件中所有关注对象的行为和上下文的描述细节。
  • 关键思路
    TrafficVLM是一种新颖的多模态密集视频字幕模型,可用于车辆自我摄像机视图。TrafficVLM在不同的分析级别上对交通视频事件进行建模,包括空间和时间,并为事件不同阶段的车辆和行人生成长的细粒度描述。
  • 其它亮点
    论文提出了TrafficVLM的条件组件来控制生成输出和多任务微调范式来增强TrafficVLM的学习能力。实验表明,TrafficVLM在车辆和俯视摄像机视图上表现良好。该解决方案在AI City Challenge 2024的第二轨中取得了优异的成绩,在挑战排名中排名第三。代码公开在https://github.com/quangminhdinh/TrafficVLM。
  • 相关研究
    最近的相关研究包括:1. DenseCap: Fully Convolutional Localization Networks for Dense Captioning;2. Temporally Grounding Natural Sentence in Video;3. Video Captioning with Transferred Semantic Attributes。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问