Rethinking Overlooked Aspects in Vision-Language Models

简介

最近，大型视觉语言模型（LVLMs）的进展非常显著，例如GPT4-V和LLaVA。特别是LLaVA的模块化架构，提供了简单和高效的结合。最近的研究主要集中在引入更多的预训练和指令调整数据来提高模型的性能。本文深入探讨了预训练期间常被忽略的数据效率方面以及指令调整数据集的选择过程。我们的研究表明，仅仅增加预训练数据的大小并不能保证性能的提高，事实上可能导致性能的下降。此外，我们建立了一个流程来确定最有效的指令调整（SFT）数据集，这意味着并非所有现有研究中使用的SFT数据都是必要的。本文的主要目标不是介绍最先进的模型，而是作为未来研究的路线图，旨在优化预训练和微调过程中的数据使用，以增强视觉语言模型的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在探讨大规模视觉语言模型（LVLMs）在预训练和Fine-tuning过程中的数据使用效率问题，以提高模型性能。
关键思路

本文提出了一种针对预训练和SFT数据选择的数据使用效率优化方法，以及一种SFT数据筛选的管道，以提高LVLMs的性能。
其它亮点

本文发现仅仅增加预训练数据的大小并不能保证模型性能的提高，反而可能导致性能下降；提出了一种数据使用效率优化方法和一种SFT数据筛选的管道；实验使用了多个数据集，包括COCO和Conceptual Captions，并开源了代码。
相关研究

相关研究包括GPT4-V和LLaVA等大规模视觉语言模型的研究，以及其他一些关于预训练和Fine-tuning的研究。

Rethinking Overlooked Aspects in Vision-Language Models

提问交流

提问交流