Low-Rank Similarity Mining for Multimodal Dataset Distillation

简介

尽管数据集精简在近年来得到了快速发展，但多模态数据（例如图像-文本对）的精简却存在独特且未被充分探索的挑战。与单模态数据不同，图像-文本对的对比学习数据缺乏固有的分类，因此应更加注重模态对应关系。在本研究中，我们提出了用于多模态数据集精简的低秩相似度挖掘（LoRS）方法，该方法同时精简图像-文本对的真实相似度矩阵，并利用低秩分解提高效率和可扩展性。该方法显著改进了现有算法，对于视觉-语言数据集精简领域做出了重要贡献。我们建议采用LoRS作为图像-文本数据集精简的基础合成数据设置。我们的代码可在https://github.com/silicx/LoRS_Distill上获得。
图表
解决问题

论文旨在解决多模态数据（如图像-文本对）的数据集精简问题，探索了多模态数据集精简的挑战和特点。
关键思路

论文提出了一种名为LoRS的方法，用于同时精简图像-文本对并提取它们之间的相似性，采用低秩分解提高效率和可扩展性。
其它亮点

LoRS方法在现有算法的基础上取得了显著的改进，是视觉-语言数据集精简领域的重要贡献，值得作为基础性的合成数据设置。论文提供了代码，可供使用。实验使用了多个数据集，并进行了详细的分析和评估。
相关研究

近期的相关研究包括Multi-Modal Distillation和DeepSeed等。