Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement

简介

大型视觉语言模型（LVLMs）通过在特定数据集上进行视觉指导调整，在各种视觉问答和推理任务中取得了令人印象深刻的成果。然而，视觉和语言模态之间的对齐仍有相当大的改进空间。以往增强这种对齐的方法通常需要外部模型或数据，严重依赖于它们的能力和质量，这不可避免地设定了性能的上限。在本文中，我们提出了SIMA框架，通过自我改进增强视觉和语言模态的对齐，消除了对外部模型或数据的需求。SIMA利用现有的视觉指导调整数据集中的提示来自动生成响应，并采用上下文自我批评机制来选择响应对以进行偏好调整。关键创新是在上下文自我批评过程中引入了三个视觉度量，这些度量可以指导LVLM选择增强图像理解的响应。通过在14个幻觉和全面基准测试中进行实验，我们证明SIMA不仅在所有基准测试中提高了模型性能，而且实现了优越的模态对齐，胜过以往的方法。
图表
解决问题

本论文旨在提高视觉和语言模态之间的对齐度，以提高大型视觉语言模型的性能。论文提出了一种名为SIMA的框架，通过自我改进来消除对外部模型或数据的需求。
关键思路

SIMA利用现有视觉指导调整数据集中的提示来自动生成响应，并采用上下文自我批评机制来选择用于偏好调整的响应对。在上下文自我批评过程中，引入了三个视觉度量，以指导LVLM选择增强图像理解的响应。这种方法比以往的方法更加有效。
其它亮点

论文通过14个幻觉和综合基准测试实验表明，SIMA不仅在所有基准测试中提高了模型性能，而且实现了优秀的模态对齐度，优于以前的方法。值得注意的是，SIMA不需要外部模型或数据，具有更广泛的适用性。
相关研究

在这个领域中，最近的相关研究包括：《DALL·E: Creating Images from Text》、《ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。

Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement

评论