Low-Rank Similarity Mining for Multimodal Dataset Distillation

2024年06月06日
  • 简介
    尽管数据集精简在近年来得到了快速发展,但多模态数据(例如图像-文本对)的精简却存在独特且未被充分探索的挑战。与单模态数据不同,图像-文本对的对比学习数据缺乏固有的分类,因此应更加注重模态对应关系。在本研究中,我们提出了用于多模态数据集精简的低秩相似度挖掘(LoRS)方法,该方法同时精简图像-文本对的真实相似度矩阵,并利用低秩分解提高效率和可扩展性。该方法显著改进了现有算法,对于视觉-语言数据集精简领域做出了重要贡献。我们建议采用LoRS作为图像-文本数据集精简的基础合成数据设置。我们的代码可在https://github.com/silicx/LoRS_Distill上获得。
  • 图表
  • 解决问题
    论文旨在解决多模态数据(如图像-文本对)的数据集精简问题,探索了多模态数据集精简的挑战和特点。
  • 关键思路
    论文提出了一种名为LoRS的方法,用于同时精简图像-文本对并提取它们之间的相似性,采用低秩分解提高效率和可扩展性。
  • 其它亮点
    LoRS方法在现有算法的基础上取得了显著的改进,是视觉-语言数据集精简领域的重要贡献,值得作为基础性的合成数据设置。论文提供了代码,可供使用。实验使用了多个数据集,并进行了详细的分析和评估。
  • 相关研究
    近期的相关研究包括Multi-Modal Distillation和DeepSeed等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论