Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement

2024年05月24日
  • 简介
    大型视觉语言模型(LVLMs)通过在特定数据集上进行视觉指导调整,在各种视觉问答和推理任务中取得了令人印象深刻的成果。然而,视觉和语言模态之间的对齐仍有相当大的改进空间。以往增强这种对齐的方法通常需要外部模型或数据,严重依赖于它们的能力和质量,这不可避免地设定了性能的上限。在本文中,我们提出了SIMA框架,通过自我改进增强视觉和语言模态的对齐,消除了对外部模型或数据的需求。SIMA利用现有的视觉指导调整数据集中的提示来自动生成响应,并采用上下文自我批评机制来选择响应对以进行偏好调整。关键创新是在上下文自我批评过程中引入了三个视觉度量,这些度量可以指导LVLM选择增强图像理解的响应。通过在14个幻觉和全面基准测试中进行实验,我们证明SIMA不仅在所有基准测试中提高了模型性能,而且实现了优越的模态对齐,胜过以往的方法。
  • 图表
  • 解决问题
    本论文旨在提高视觉和语言模态之间的对齐度,以提高大型视觉语言模型的性能。论文提出了一种名为SIMA的框架,通过自我改进来消除对外部模型或数据的需求。
  • 关键思路
    SIMA利用现有视觉指导调整数据集中的提示来自动生成响应,并采用上下文自我批评机制来选择用于偏好调整的响应对。在上下文自我批评过程中,引入了三个视觉度量,以指导LVLM选择增强图像理解的响应。这种方法比以往的方法更加有效。
  • 其它亮点
    论文通过14个幻觉和综合基准测试实验表明,SIMA不仅在所有基准测试中提高了模型性能,而且实现了优秀的模态对齐度,优于以前的方法。值得注意的是,SIMA不需要外部模型或数据,具有更广泛的适用性。
  • 相关研究
    在这个领域中,最近的相关研究包括:《DALL·E: Creating Images from Text》、《ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论