Elysium: Exploring Object-level Perception in Videos via MLLM

向作者提问

NEW

简介

多模态大型语言模型（MLLMs）已经展示了它们在静态图像中感知物体的能力，但它们在与视频相关的任务，如物体跟踪方面的应用仍未得到充分研究。这种缺乏探索主要是由于两个关键挑战。首先，需要对大规模视频数据集进行广泛的预训练，以使MLLMs具备跨多个帧感知物体并理解帧间关系的能力。其次，在大型语言模型（LLMs）的上下文窗口内处理大量帧可能会带来重大的计算负担。为了解决第一个挑战，我们介绍了ElysiumTrack-1M，这是一个大规模的视频数据集，配备了新颖的任务：指称单个对象跟踪（RSOT）和视频指称表达式生成（Video-REG）。ElysiumTrack-1M包含127万个带有相应物体框和描述的注释视频帧。利用这个数据集，我们进行MLLMs的训练，并提出了一个名为T-Selector的令牌压缩模型来解决第二个挑战。我们提出的方法，Elysium：通过MLLM探索视频中的物体级感知，是一个端到端可训练的MLLM，它首次尝试在视频中进行物体级任务，而无需任何额外的插件或专家模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探索视频中的对象级别任务，其中包括单个对象跟踪和视频指称表达式生成。作者认为这个领域的研究还不够充分，主要是由于需要大规模的视频数据集和高计算量的挑战。
关键思路

作者提出了一种端到端可训练的多模态大语言模型（MLLM），名为Elysium，用于解决视频中的对象级别任务。为了解决大规模视频数据集和高计算量的挑战，作者提出了ElysiumTrack-1M数据集和一种名为T-Selector的令牌压缩模型。
其它亮点

本论文的亮点包括提出了ElysiumTrack-1M数据集和两个新的任务：Referring Single Object Tracking (RSOT)和Video Referring Expression Generation (Video-REG)。作者还提出了一种名为T-Selector的令牌压缩模型，用于减轻大语言模型的计算负担。实验结果表明，Elysium在对象级别任务上取得了良好的表现。
相关研究

最近的相关研究包括：《Multi-modal Video Captioning with Multitask Learning》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问