LongVILA: Scaling Long-Context Visual Language Models for Long Videos

2024年08月19日
  • 简介
    长上下文能力对于多模态基础模型至关重要。我们引入了LongVILA,这是一个长上下文视觉语言模型的全栈解决方案,包括系统、模型训练和数据集开发。在系统方面,我们引入了第一个长上下文多模态序列并行性(MM-SP)系统,可以实现长时间的训练和推理,在256个GPU上进行2M上下文长度的训练,无需任何梯度检查点。MM-SP比环形序列并行性快2.1倍至5.7倍,在纯文本环境下比Megatron上下文并行性+张量并行性快1.1倍至1.4倍。此外,它可以无缝地与Hugging Face Transformers集成。对于模型训练,我们提出了一个五阶段的流程,包括对齐、预训练、短期监督微调、上下文扩展和长期监督微调。在数据集方面,我们构建了大规模的视觉语言预训练数据集和长视频指令跟随数据集,以支持我们的多阶段训练过程。LongVILA将VILA的帧数从8扩展到1024,并将长视频字幕评分从2.00提高到3.26(1.6倍),在1400帧视频(274k上下文长度)中实现99.5%的准确率。随着帧数的增加,LongVILA-8B在VideoMME基准测试中对长视频的准确性不断提高。
  • 图表
  • 解决问题
    论文旨在解决长上下文视觉语言模型的问题,包括系统、模型训练和数据集开发。作者提出了LongVILA,是一个完整的解决方案。
  • 关键思路
    LongVILA提出了第一个长上下文多模态序列并行(MM-SP)系统,使得可以在256个GPU上进行2M上下文长度的训练和推理,无需任何梯度检查点。LongVILA还提出了一个五阶段的训练流程,包括对齐、预训练、短监督微调、上下文扩展和长监督微调。此外,LongVILA还扩展了VILA的帧数,从8帧扩展到1024帧,并在VideoMME基准测试中展现了长视频的一致性准确性提高。
  • 其它亮点
    论文还构建了大规模的视觉语言预训练数据集和长视频指令跟踪数据集来支持多阶段训练过程。作者还展示了LongVILA-8B在长视频中的准确性提高,从而使得在1400帧视频(274k上下文长度)中的needle-in-a-haystack的长视频字幕得分从2.00提高到3.26(1.6倍)。此外,LongVILA还与Hugging Face Transformers无缝集成,同时在文本方面比环形序列并行快2.1-5.7倍,在Megatron上下文并行加张量并行方面快1.1-1.4倍。
  • 相关研究
    在最近的相关研究中,有一些文章探索了长上下文视觉语言模型,例如Unified Vision-Language Pre-Training for Image Captioning and VQA和VideoBERT: A Joint Model for Video and Language Representation Learning。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论