- 简介多模态大型语言模型(MLLMs)已经展示了它们在静态图像中感知物体的能力,但它们在与视频相关的任务,如物体跟踪方面的应用仍未得到充分研究。这种缺乏探索主要是由于两个关键挑战。首先,需要对大规模视频数据集进行广泛的预训练,以使MLLMs具备跨多个帧感知物体并理解帧间关系的能力。其次,在大型语言模型(LLMs)的上下文窗口内处理大量帧可能会带来重大的计算负担。为了解决第一个挑战,我们介绍了ElysiumTrack-1M,这是一个大规模的视频数据集,配备了新颖的任务:指称单个对象跟踪(RSOT)和视频指称表达式生成(Video-REG)。ElysiumTrack-1M包含127万个带有相应物体框和描述的注释视频帧。利用这个数据集,我们进行MLLMs的训练,并提出了一个名为T-Selector的令牌压缩模型来解决第二个挑战。我们提出的方法,Elysium:通过MLLM探索视频中的物体级感知,是一个端到端可训练的MLLM,它首次尝试在视频中进行物体级任务,而无需任何额外的插件或专家模型。
-
- 图表
- 解决问题本论文旨在探索视频中的对象级别任务,其中包括单个对象跟踪和视频指称表达式生成。作者认为这个领域的研究还不够充分,主要是由于需要大规模的视频数据集和高计算量的挑战。
- 关键思路作者提出了一种端到端可训练的多模态大语言模型(MLLM),名为Elysium,用于解决视频中的对象级别任务。为了解决大规模视频数据集和高计算量的挑战,作者提出了ElysiumTrack-1M数据集和一种名为T-Selector的令牌压缩模型。
- 其它亮点本论文的亮点包括提出了ElysiumTrack-1M数据集和两个新的任务:Referring Single Object Tracking (RSOT)和Video Referring Expression Generation (Video-REG)。作者还提出了一种名为T-Selector的令牌压缩模型,用于减轻大语言模型的计算负担。实验结果表明,Elysium在对象级别任务上取得了良好的表现。
- 最近的相关研究包括:《Multi-modal Video Captioning with Multitask Learning》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流