- 简介当前的语言模型在理解世界中无法用语言轻易描述的方面以及处理复杂的长篇任务方面存在不足。视频序列提供了语言和静态图像中缺失的有价值的时间信息,使得它们与语言联合建模变得有吸引力。这样的模型可以发展对人类文本知识和物理世界的理解,从而为协助人类提供更广泛的人工智能能力。然而,从数百万个视频和语言序列中学习存在记忆限制、计算复杂度和数据集有限的挑战。为了解决这些挑战,我们策划了一个大型的多样化视频和书籍数据集,利用RingAttention技术对长序列进行可扩展的训练,并逐渐将上下文大小从4K增加到1M个标记。本文的贡献如下:(a)最大上下文大小神经网络:我们训练了一个最大上下文大小的transformer模型,在长视频和语言序列上取得了新的检索任务和长视频理解方面的最新成果。(b)解决克服视觉-语言训练挑战的方案,包括使用掩码序列打包来混合不同的序列长度,损失加权来平衡语言和视觉,以及模型生成的QA数据集用于长序列聊天。(c)高度优化的实现,包括RingAttention、掩码序列打包和其他关键功能,用于在数百万长度的多模式序列上进行训练。(d)完全开源的7B参数模型系列,能够处理超过1M个标记的长文本文档(LWM-Text、LWM-Text-Chat)和视频(LWM、LWM-Chat)。这项工作为训练大规模的长视频和语言数据集,以发展对人类知识和多模态世界的理解以及更广泛的能力铺平了道路。
- 图表
- 解决问题本论文旨在解决语言模型对于视频序列的理解不足的问题,提出了一种联合建模语言和视频序列的方法,以便更好地理解人类知识和物理世界。
- 关键思路论文的关键思路是通过构建一个大规模的数据集,利用RingAttention技术对长序列进行可扩展的训练,并逐步增加上下文大小,从而训练出一个能够处理长文本和视频序列的神经网络模型。
- 其它亮点本论文的亮点包括:(a)训练了一个上下文大小最大的神经网络模型,取得了在难度较大的检索任务和长视频理解方面的新的最佳表现;(b)提出了一些解决视觉-语言训练挑战的解决方案,包括使用掩码序列打包来混合不同的序列长度、损失加权来平衡语言和视觉、以及模型生成的QA数据集用于长序列聊天;(c)使用RingAttention、掩码序列打包和其他关键特性对处理数百万长度的多模态序列进行训练的高度优化实现;(d)完全开源了一系列7B参数模型,能够处理超过1M令牌的长文本文档(LWM-Text、LWM-Text-Chat)和视频(LWM、LWM-Chat)。
- 在这个领域中,最近的相关研究包括:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training》、《VideoBERT: A Joint Model for Video and Language Representation Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢