- 简介大型多模态模型(LMMs)在视频理解任务中表现出色,甚至能够处理超过一小时的长视频。然而,尽管这些模型能够处理长时间的输入,生成相应长度和丰富度的输出仍然是一个挑战。在本文中,我们使用视频字幕生成作为代理任务来探讨LMMs在长输出方面的问题,并发现开源的LMMs难以一致地生成超过约300个词的输出。通过受控实验,我们发现训练过程中缺乏与长字幕配对的样本是限制模型输出长度的主要因素。然而,手动标注长字幕样例既耗时又昂贵。为了解决这一问题,我们提出了LongCaption-Agent框架,该框架通过聚合多层次描述来合成长字幕数据。利用LongCaption-Agent,我们整理了一个新的长字幕数据集LongCaption-10K。我们还开发了LongCaption-Bench基准测试工具,旨在全面评估LMMs生成的长字幕的质量。通过将LongCaption-10K纳入训练,我们使LMMs能够生成超过1,000个词的字幕,同时保持高质量的输出。在LongCaption-Bench中,我们的8B参数模型达到了最先进水平,甚至超过了更大的专有模型。我们将在论文发表后发布数据集和代码。
-
- 图表
- 解决问题该论文试图解决大型多模态模型(LMMs)在生成长篇视频字幕时遇到的挑战,即尽管这些模型能够处理长达数小时的视频输入,但它们难以生成超过约300词的高质量输出。这是一个新问题,因为随着视频内容长度的增加,如何保持输出的一致性和丰富性成为了一个亟待解决的研究课题。
- 关键思路关键思路是通过引入LongCaption-Agent框架来合成长篇字幕数据,该框架通过聚合多层次描述来创建长篇字幕。这种方法解决了训练数据中缺乏长篇字幕配对样本的问题,并且避免了手动标注的高昂成本。与现有研究相比,此方法创新地利用了自动合成数据来增强模型的长文本生成能力。
- 其它亮点论文的亮点包括:1) 开发了LongCaption-10K数据集,为长篇视频字幕提供了丰富的训练资源;2) 创建了LongCaption-Bench基准测试,用于全面评估LMMs生成的长篇字幕质量;3) 使用新数据集训练后的8B参数模型,在长篇字幕生成任务上达到了最先进的性能,甚至超越了更大规模的专有模型;4) 所有数据集和代码将在论文发表后公开,促进未来研究。
- 最近的相关研究包括《Enhancing Video Captioning with Large-Scale Multimodal Pretraining》、《Multimodal Pre-training for Long Video Understanding》以及《Generating Detailed Video Descriptions via Hierarchical Transformers》等论文。这些研究主要集中在通过大规模预训练或多层变换器结构提高视频理解能力,而本论文则专注于解决长篇输出的具体挑战。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流