- 简介与图像-文本对数据相比,交错语料库使视觉-语言模型(VLMs)能够更自然地像人类一样理解世界。然而,现有的这类数据集是从网页抓取的,面临诸如知识密度低、图像与文本关系松散以及图像之间逻辑连贯性差等挑战。另一方面,互联网上存在大量的教学视频(例如,在线几何课程),这些资源被广泛用于学习基础学科,但在VLM训练中尚未得到充分利用。在本文中,我们介绍了一个高质量的**多模态教科书**语料库,为VLM预训练提供了更丰富的基础知识。该语料库收集了超过2.5年的教学视频,总计22,000个课时。 我们首先使用由大型语言模型(LLM)提出的分类法系统地收集教学视频。然后,我们逐步从视频中提取和精炼视觉(关键帧)、音频(自动语音识别,ASR)和文本知识(光学字符识别,OCR),并根据时间顺序组织成图像-文本交错的语料库。与同类语料库相比,我们的以视频为中心的教科书提供了更加连贯的上下文、更丰富的知识和更好的图像-文本对齐。实验表明,它在预训练性能方面表现出色,尤其是在需要知识和推理的任务如ScienceQA和MathVista中。此外,基于我们教科书预训练的VLM在少量样本情境下的任务解决中展现了出色的交错上下文意识,能够利用视觉和文本线索进行任务解决。 我们的代码可在[GitHub](https://github.com/DAMO-NLP-SG/multimodal_textbook)获取。
- 图表
- 解决问题该论文试图解决现有视觉-语言模型(VLMs)训练数据集存在的问题,如低知识密度、松散的图像文本关系和较差的逻辑连贯性。此外,它还旨在利用互联网上丰富的教学视频资源来增强VLMs对基础学科的理解与学习能力。这是一个创新的问题视角,强调了从高质量教育内容中提取多模态数据的重要性。
- 关键思路关键思路是创建一个高质量的多模态教材语料库,通过系统地收集超过2.5年的教学视频,并从中提取关键帧、自动语音识别(ASR)和光学字符识别(OCR)信息,构建出基于时间顺序的图像-文本交错语料库。相比现有的网页爬取数据集,这种方法提供了更连贯的上下文、更丰富的知识和更好的图像-文本对齐。
- 其它亮点亮点包括:1) 构建了一个包含22,000个课时的教学视频语料库;2) 提出了使用大型语言模型(LLM)提出的分类法来系统收集教学视频;3) 在ScienceQA和MathVista等需要深厚知识和推理的任务上展示了卓越的预训练性能;4) 开源了代码,便于后续研究者复现和改进。未来的研究可以进一步探索如何将这种多模态教材应用于更多类型的教育内容或领域。
- 最近的相关研究包括《大规模视觉-语言预训练》、《Webly Supervised Learning for Vision-Language Models》以及《Multimodal Pre-training with Web Images and Texts》等。这些研究主要集中在利用网络上的图像-文本对进行预训练,但较少关注从教学视频中提取高质量的多模态数据。
沙发等你来抢
去评论
评论
沙发等你来抢