Elysium: Exploring Object-level Perception in Videos via MLLM

2024年03月25日
  • 简介
    多模态大型语言模型(MLLMs)已经展示了它们在静态图像中感知物体的能力,但它们在与视频相关的任务,如物体跟踪方面的应用仍未得到充分研究。这种缺乏探索主要是由于两个关键挑战。首先,需要对大规模视频数据集进行广泛的预训练,以使MLLMs具备跨多个帧感知物体并理解帧间关系的能力。其次,在大型语言模型(LLMs)的上下文窗口内处理大量帧可能会带来重大的计算负担。为了解决第一个挑战,我们介绍了ElysiumTrack-1M,这是一个大规模的视频数据集,配备了新颖的任务:指称单个对象跟踪(RSOT)和视频指称表达式生成(Video-REG)。ElysiumTrack-1M包含127万个带有相应物体框和描述的注释视频帧。利用这个数据集,我们进行MLLMs的训练,并提出了一个名为T-Selector的令牌压缩模型来解决第二个挑战。我们提出的方法,Elysium:通过MLLM探索视频中的物体级感知,是一个端到端可训练的MLLM,它首次尝试在视频中进行物体级任务,而无需任何额外的插件或专家模型。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在探索视频中的对象级别任务,其中包括单个对象跟踪和视频指称表达式生成。作者认为这个领域的研究还不够充分,主要是由于需要大规模的视频数据集和高计算量的挑战。
  • 关键思路
    作者提出了一种端到端可训练的多模态大语言模型(MLLM),名为Elysium,用于解决视频中的对象级别任务。为了解决大规模视频数据集和高计算量的挑战,作者提出了ElysiumTrack-1M数据集和一种名为T-Selector的令牌压缩模型。
  • 其它亮点
    本论文的亮点包括提出了ElysiumTrack-1M数据集和两个新的任务:Referring Single Object Tracking (RSOT)和Video Referring Expression Generation (Video-REG)。作者还提出了一种名为T-Selector的令牌压缩模型,用于减轻大语言模型的计算负担。实验结果表明,Elysium在对象级别任务上取得了良好的表现。
  • 相关研究
    最近的相关研究包括:《Multi-modal Video Captioning with Multitask Learning》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问