Concept-skill Transferability-based Data Selection for Large Vision-Language Models

2024年06月16日
  • 简介
    指令调整或基于广泛的任务特定数据的有监督微调对于大型视觉语言模型(LVLM)在广泛的视觉语言(VL)任务中实现良好的泛化是必要的。然而,对大型VL数据集进行训练可能变得过于昂贵。在这项工作中,我们介绍了COINCIDE,一种有效且可扩展的数据选择技术,该技术使用小型模型作为参考模型,选择视觉指令调整数据,以便有效微调目标LVLM,重点关注多样性和可转移性。具体而言,我们使用小型模型的内部激活对训练数据进行聚类,从而确定目标LVLM所需的VL概念技能组合。然后,我们通过考虑它们的密度和可转移性(即能否很好地转移到其他概念技能组合)来从这些不同的聚类中抽取数据。这种方法确保了这些组合的多样性,这对于LVLM泛化至关重要。广泛的实验表明,COINCIDE在LLaVA-1.5和Vision-Flan两个不同数据集上对比8个强基线方法实现了卓越的性能和数据选择效率。仅使用LLaVA-1.5数据集的20%,COINCIDE实现了与整个数据集微调的LVLM相当的性能,并减少了70%的墙钟运行时间。在Vision-Flan数据集上,我们的方法仅使用16.7%的训练数据就实现了优异的结果。
  • 图表
  • 解决问题
    如何在节约时间和成本的情况下,为大型视觉语言模型(LVLM)提供有效的数据选择技术,以便在广泛的视觉语言任务中实现良好的泛化性能?
  • 关键思路
    使用小型模型作为参考模型,通过聚类训练数据并考虑密度和可转移性,选择视觉指令调整数据,以实现目标LVLM的有效微调,注重多样性和可转移性。
  • 其它亮点
    COINCIDE方法在LLaVA-1.5和Vision-Flan数据集上的实验表明,相对于8个强基线方法,其选择效率和性能均优。仅使用LLaVA-1.5数据集的20%,COINCIDE方法实现了与整个数据集微调的LVLM相当的性能,同时减少了70%的运行时间。在Vision-Flan数据集上,该方法只使用了16.7%的训练数据,就实现了优异的结果。
  • 相关研究
    与该论文相关的研究包括但不限于:《Large Scale Learning to Rank》、《Efficient and Robust Question Answering from Minimal Context over Documents》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论