- 简介与图像-文本对数据相比,交错语料库使视觉-语言模型(VLMs)能够更自然地像人类一样理解世界。然而,现有的这些数据集是从网页爬取的,面临着知识密度低、图像与文本关系松散以及图像之间逻辑连贯性差等挑战。另一方面,互联网上存在大量的教学视频(例如,在线几何课程),这些资源被广泛用于学习基础学科,但在VLM训练中尚未得到充分开发。在本文中,我们引入了一个高质量的多模态教材语料库,为VLM预训练提供了更丰富的基础知识。该语料库收集了超过2.5年的教学视频,总计22,000个课时。 我们首先使用由大型语言模型提出的分类法系统地收集教学视频。然后逐步从视频中提取并精炼视觉(关键帧)、音频(自动语音识别,ASR)和文本知识(光学字符识别,OCR),并根据时间顺序组织成图像-文本交错语料库。与同类语料库相比,我们的以视频为中心的教材提供了更连贯的上下文、更丰富的知识和更好的图像-文本对齐。实验表明,它在预训练性能上表现出色,特别是在需要大量知识和推理的任务如ScienceQA和MathVista中。此外,基于我们教材预训练的VLMs在少样本情境下展示了出色的交错上下文感知能力,能够利用视觉和文本线索进行任务解决。 我们的代码可在以下网址获取:[https://github.com/DAMO-NLP-SG/multimodal_textbook](https://github.com/DAMO-NLP-SG/multimodal_textbook)。
- 图表
- 解决问题该论文试图解决现有视觉-语言模型(VLMs)训练数据集存在的问题,如低知识密度、图像与文本关系松散以及逻辑连贯性差。此外,它还探索了如何利用互联网上丰富的教学视频资源来改进VLMs的预训练。
- 关键思路关键思路是创建一个高质量的多模态教科书语料库,通过系统地收集和处理2.5年的教学视频(总计22,000个课时),提取并优化其中的视觉、音频和文本信息,形成基于时间顺序的图像-文本交织语料库。这不仅提高了图像与文本之间的对齐度,也增强了内容的知识深度和上下文连贯性。
- 其它亮点实验结果表明,使用这种新型语料库预训练的VLMs在知识密集型任务(如ScienceQA和MathVista)中表现出色。此外,这些模型展示了出色的上下文感知能力,能够有效结合视觉和文本线索进行推理。值得注意的是,作者提供了开源代码,方便后续研究者复现和扩展此工作。
- 近年来,关于视觉-语言模型的研究层出不穷,例如CLIP、ALIGN等模型尝试通过大规模图像-文本对来提升跨模态理解能力。同时,也有研究关注于从网页或社交媒体平台获取数据以增强模型的知识表示。然而,直接利用教育视频作为训练数据源的工作相对较少见。一些相关研究包括:《Learning from Massive Web Data for Vision-Language Models》、《Webly Supervised Learning of Multimodal Representations》等。
沙发等你来抢
去评论
评论
沙发等你来抢