- 简介大型视觉语言模型(LVLMs)通过在特定数据集上进行视觉指导调整,在各种视觉问答和推理任务中取得了令人印象深刻的成果。然而,视觉和语言模态之间的对齐仍有相当大的改进空间。以往增强这种对齐的方法通常需要外部模型或数据,严重依赖于它们的能力和质量,这不可避免地设定了性能的上限。在本文中,我们提出了SIMA框架,通过自我改进增强视觉和语言模态的对齐,消除了对外部模型或数据的需求。SIMA利用现有的视觉指导调整数据集中的提示来自动生成响应,并采用上下文自我批评机制来选择响应对以进行偏好调整。关键创新是在上下文自我批评过程中引入了三个视觉度量,这些度量可以指导LVLM选择增强图像理解的响应。通过在14个幻觉和全面基准测试中进行实验,我们证明SIMA不仅在所有基准测试中提高了模型性能,而且实现了优越的模态对齐,胜过以往的方法。
- 图表
- 解决问题本论文旨在提高视觉和语言模态之间的对齐度,以提高大型视觉语言模型的性能。论文提出了一种名为SIMA的框架,通过自我改进来消除对外部模型或数据的需求。
- 关键思路SIMA利用现有视觉指导调整数据集中的提示来自动生成响应,并采用上下文自我批评机制来选择用于偏好调整的响应对。在上下文自我批评过程中,引入了三个视觉度量,以指导LVLM选择增强图像理解的响应。这种方法比以往的方法更加有效。
- 其它亮点论文通过14个幻觉和综合基准测试实验表明,SIMA不仅在所有基准测试中提高了模型性能,而且实现了优秀的模态对齐度,优于以前的方法。值得注意的是,SIMA不需要外部模型或数据,具有更广泛的适用性。
- 在这个领域中,最近的相关研究包括:《DALL·E: Creating Images from Text》、《ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。
沙发等你来抢
去评论
评论
沙发等你来抢