Adapting Multi-modal Large Language Model to Concept Drift in the Long-tailed Open World

2024年05月22日
  • 简介
    实际数据经常表现出极度不平衡和超出分布(OOD)实例,这会严重影响模型训练。虽然在视觉和语言领域分别进行了广泛的研究,但长尾开放世界对多模态大语言模型(MLLMs)的影响却很大程度上被忽视了。本文首先展示了视觉语言模型在预训练和微调阶段都容易受到尾部漂移和OOD漂移导致的显著偏差的影响。为了消除不同来源的偏差,我们将尾部漂移适应和OOD漂移检测集成到一个统一的框架中,通过将概念漂移理论扩展到多模态来实现。具体而言,我们提出了基于T分布的漂移适配器,可以有效地减轻由长尾问题引起的偏差,同时也可以通过显式分布建模帮助模型区分OOD数据。大量实验证明了我们模型适应尾部漂移和OOD漂移的能力显著提高。此外,它还增强了视觉语言模型预训练中图像文本对齐的效率和准确性,特别是在长尾开放世界情况下。此外,我们创建了一组名为OpenMMlo的多模态数据集,专门针对长尾开放世界情景,以验证我们的发现。为了促进多模态社区的发展,我们已经公开了OpenMMlo数据集和我们的代码,网址为:https://github.com/Anonymous0Knight/ConceptDriftMLLMs。
  • 图表
  • 解决问题
    本文旨在解决多模态大语言模型(MLLMs)在长尾开放世界场景下受到的偏见和漂移问题,尤其是尾部漂移和分布漂移对模型训练的影响。
  • 关键思路
    本文提出了一个统一的框架,通过将概念漂移理论扩展到多模态领域,将尾部漂移适应和分布漂移检测集成到一起,以消除不同来源的偏见。具体而言,提出了基于T分布的漂移适应器,有效缓解了长尾问题引起的偏见,并通过显式分布建模帮助模型区分OOD数据。
  • 其它亮点
    本文的亮点包括:使用OpenMMlo数据集验证了模型的有效性;提出的框架可以提高模型适应尾部漂移和OOD漂移的能力;增强了视觉语言模型预训练中图像-文本对齐的效率和准确性;提供了公开可用的代码和数据集。
  • 相关研究
    相关研究包括:在视觉和语言领域分别研究长尾问题和OOD问题的研究;在概念漂移领域的相关研究,如数据流挖掘和增量学习。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论