$VILA^2$: VILA Augmented VILA

简介

视觉语言模型（VLMs）已经快速发展，受到大型语言模型（LLMs）成功的推动。虽然模型架构和训练基础设施正在快速进步，但数据管理仍未得到充分探索。当数据量和质量成为瓶颈时，现有的工作要么直接从互联网上爬取更多没有数据质量保证的原始数据，要么从黑盒商业模型（例如GPT-4V/Gemini）中提炼，从而使性能受到该模型的上限制约。在这项工作中，我们介绍了一种新颖的方法，其中包括自我增强步骤和专家增强步骤，以迭代改善数据质量和模型性能。在自我增强步骤中，VLM重新生成其自己的预训练数据以提高数据质量，然后使用这个精炼的数据集从头开始重新训练以提高模型性能。这个过程可以迭代几轮。一旦自我增强饱和，我们使用几个专业的VLMs，通过面向任务的重新生成和重新训练，从自我增强的VLM中微调，进一步将专业知识注入到通用VLM中。通过结合自我增强和专家增强的训练，我们引入了$VILA^2$（VILA-augmented-VILA），这是一个VLM家族，在广泛的任务上始终提高了准确性，并在MMMULeaderboard上取得了新的开源模型的最新成果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决数据质量和数量不足的问题，提出一种通过自我增强和专家增强的方法来改善数据质量和模型性能的方案。
关键思路

论文提出了一种自我增强和专家增强相结合的方法，通过迭代地重新生成标注数据和重新训练模型来改善数据质量和模型性能。这种方法能够显著提高视觉语言模型在各种任务上的准确性。
其它亮点

论文使用了自我增强和专家增强相结合的方法来改善数据质量和模型性能。实验结果表明，该方法在多项任务上均取得了新的最优结果，并在MMMULeaderboard上超越了其他开源模型。论文还开源了代码和数据集。
相关研究

最近的相关研究包括使用大规模预训练模型的工作，以及通过增强数据来改进模型性能的工作，如GPT-4V和Gemini。

提问交流

提问交流