Curriculum Learning with Quality-Driven Data Selection

简介

OpenAI的GPT-4所展示的令人印象深刻的多模态能力已经引起了人们对多模态大型语言模型（MLLMs）的开发的极大兴趣。使用机器生成的指令跟随数据对MLLMs进行视觉指令调整已经显示出增强各种任务的零-shot能力。然而，对于控制指令数据的质量方面，探索还很有限。目前在MLLMs中数据选择的方法通常依赖于单一且不可靠的分数，或者使用下游任务进行选择，这是耗时的，并且可能导致过度拟合所选择的评估数据集。为了缓解这些限制，我们提出了一种新的数据选择方法，利用图像-文本相关性和模型困惑度来评估和选择不同质量的数据。这种方法利用这两个属性的不同分布，将数据质量映射到一个二维空间中，从而允许根据它们在这个分布中的位置选择数据。通过利用这个空间，我们可以分析任务类型设置对数据质量的影响。此外，这个空间可以用来构建多阶段的不同质量的子集，以促进课程学习。我们的研究包括对各种数据集进行的全面实验。结果强调了与使用完整数据集相比，在五个常见的评估能力方面的显著提升。我们的代码、数据和模型可在以下网址公开获取：\url{https://anonymous.4open.science/r/EHIT-31B4}。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决多模态大型语言模型（MLLMs）中数据选择的问题，提出了一种新的基于图像-文本相关性和模型困惑度的数据选择方法，以提高数据质量和模型性能。
关键思路

本论文提出了一种新的数据选择方法，将图像-文本相关性和模型困惑度作为数据质量的评价指标，将数据映射到二维空间中进行选择，同时可以构建多阶段子集以实现课程学习。
其它亮点

本论文的实验结果表明，使用该方法可以显著提高五种常见任务的性能，并且提供了公开的代码、数据和模型。
相关研究

在该领域的相关研究中，最近的一些论文包括《OpenAI GPT-4的多模态能力展示引起了人们对MLLMs发展的极大兴趣》。

Curriculum Learning with Quality-Driven Data Selection

提问交流

提问交流