- 简介尽管数据集精简在近年来得到了快速发展,但多模态数据(例如图像-文本对)的精简却存在独特且未被充分探索的挑战。与单模态数据不同,图像-文本对的对比学习数据缺乏固有的分类,因此应更加注重模态对应关系。在本研究中,我们提出了用于多模态数据集精简的低秩相似度挖掘(LoRS)方法,该方法同时精简图像-文本对的真实相似度矩阵,并利用低秩分解提高效率和可扩展性。该方法显著改进了现有算法,对于视觉-语言数据集精简领域做出了重要贡献。我们建议采用LoRS作为图像-文本数据集精简的基础合成数据设置。我们的代码可在https://github.com/silicx/LoRS_Distill上获得。
- 图表
- 解决问题论文旨在解决多模态数据(如图像-文本对)的数据集精简问题,探索了多模态数据集精简的挑战和特点。
- 关键思路论文提出了一种名为LoRS的方法,用于同时精简图像-文本对并提取它们之间的相似性,采用低秩分解提高效率和可扩展性。
- 其它亮点LoRS方法在现有算法的基础上取得了显著的改进,是视觉-语言数据集精简领域的重要贡献,值得作为基础性的合成数据设置。论文提供了代码,可供使用。实验使用了多个数据集,并进行了详细的分析和评估。
- 近期的相关研究包括Multi-Modal Distillation和DeepSeed等。
沙发等你来抢
去评论
评论
沙发等你来抢