Enhancing Large Vision Language Models with Self-Training on Image Comprehension

简介

大型视觉语言模型（LVLMs）将大型语言模型（LLMs）与预训练的视觉编码器集成在一起，从而激活模型的感知能力，以理解不同查询的图像输入并进行后续推理。提高这种能力需要高质量的视觉语言数据，这是获取成本高昂且劳动密集的。自我训练方法在单模态设置中已经证明了在利用模型自身生成的情况下减轻标记数据需求的有效性。然而，关于LVLMs独特的视觉感知和推理能力，有效的自我训练仍然是一个挑战。为了解决这个问题，我们引入了一种名为图像理解的自我训练（STIC）方法，重点是针对图像理解的自我训练方法。首先，模型使用未标记的图像自行构建图像描述的偏好数据集。通过逐步提示生成首选响应，而通过损坏的图像或误导性提示生成不喜欢的响应。为了进一步自我提高对提取的视觉信息的推理能力，我们让模型重复使用现有的少量指令调整数据，并将其自动生成的图像描述附加到提示中。我们在七个不同的基准测试中验证了STIC的有效性，证明使用比当前方法少70％的受监督微调数据的情况下平均获得了4.0％的性能提升。进一步的研究调查了STIC的各种组成部分，并强调了其利用大量未标记图像进行自我训练的潜力。代码和数据已公开发布。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

本论文旨在提高大型视觉语言模型（LVLMs）的图像理解能力，通过自我训练来减少对标注数据的依赖。

关键思路

论文提出了一种自我训练方法，称为STIC，专门用于图像理解。该方法通过无标注图像自我构建偏好数据集，并使用自动生成的图像描述来提高视觉信息的推理能力。

其它亮点

该方法在七个不同的基准测试中验证了其有效性，平均性能提高了4.0％，同时使用的受监督微调数据比当前方法少70％。该论文提供了代码和数据，可供公开使用。

Enhancing Large Vision Language Models with Self-Training on Image Comprehension

提问交流

提问交流