TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning

向作者提问

NEW

简介

近年来，由于对高效可靠城市监控系统的需求不断增长，交通视频描述和分析受到了广泛关注。大多数现有方法只关注于定位交通事件片段，严重缺乏与事件中所有关注对象的行为和上下文相关的描述细节。本文提出了TrafficVLM，这是一种新颖的多模态密集视频字幕模型，适用于车辆自视角摄像头。TrafficVLM在空间和时间上以不同的分析级别对交通视频事件进行建模，并为事件不同阶段的车辆和行人生成长的精细描述。我们还提出了TrafficVLM的条件组件来控制生成输出以及多任务微调范式来增强TrafficVLM的学习能力。实验表明，TrafficVLM在车辆和俯视摄像头视图上表现良好。我们的解决方案在AI City Challenge 2024的第二轨中取得了优异的成绩，排名第三。我们的代码公开在https://github.com/quangminhdinh/TrafficVLM。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决交通视频描述和分析中存在的问题，即现有方法只关注定位交通事件，缺乏有关事件中所有关注对象的行为和上下文的描述细节。
关键思路

TrafficVLM是一种新颖的多模态密集视频字幕模型，可用于车辆自我摄像机视图。TrafficVLM在不同的分析级别上对交通视频事件进行建模，包括空间和时间，并为事件不同阶段的车辆和行人生成长的细粒度描述。
其它亮点

论文提出了TrafficVLM的条件组件来控制生成输出和多任务微调范式来增强TrafficVLM的学习能力。实验表明，TrafficVLM在车辆和俯视摄像机视图上表现良好。该解决方案在AI City Challenge 2024的第二轨中取得了优异的成绩，在挑战排名中排名第三。代码公开在https://github.com/quangminhdinh/TrafficVLM。
相关研究

最近的相关研究包括：1. DenseCap: Fully Convolutional Localization Networks for Dense Captioning；2. Temporally Grounding Natural Sentence in Video；3. Video Captioning with Transferred Semantic Attributes。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问