From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search

2024年04月16日
  • 简介
    在基于文本的人物搜索中,数据生成已成为一种流行的实践,解决了隐私保护和手动注释的艰巨任务。虽然理论上可以生成无限数量的合成数据,但科学难题仍然存在,即生成多少数据最优地推动后续模型训练。我们观察到,这些构建的数据集中只有一部分数据起着决定性作用。因此,我们引入了一种新的Filtering-WoRA范例,其中包含一个过滤算法来识别这个关键的数据子集,以及一个WoRA(加权低秩适应)学习策略进行轻微的微调。过滤算法基于跨模态相关性来去除大量粗匹配合成对。随着数据数量的减少,我们不需要微调整个模型。因此,我们提出了一种WoRA学习策略,以高效地更新模型参数的最小部分。WoRA简化了学习过程,使从少量但有效的数据实例中提取知识的效率更高。广泛的实验验证了预训练的功效,我们的模型在具有挑战性的真实基准测试中实现了先进和高效的检索性能。值得注意的是,在CUHK-PEDES数据集上,我们实现了67.02%的有竞争力的mAP,同时将模型训练时间缩短了19.82%。
  • 图表
  • 解决问题
    论文旨在解决通过数据生成进行文本搜索时,如何确定生成数据集中最重要的数据子集,以及如何通过轻微微调来有效地利用这些数据的问题。
  • 关键思路
    论文提出了一种Filtering-WoRA范式,其中包含一个过滤算法来识别关键数据子集,以及一种加权低秩适应(WoRA)学习策略,用于轻微微调整模型。过滤算法基于跨模态相关性来消除大量的粗匹配合成对。WoRA学习策略可以高效地更新模型参数的最小部分,从而简化了学习过程。
  • 其它亮点
    论文在挑战性的现实世界基准测试中验证了预训练的有效性,模型在CUHK-PEDES数据集上实现了67.02%的竞争性mAP,同时减少了19.82%的模型训练时间。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《A Comprehensive Survey on Cross-modal Retrieval: From Low-level Features to Semantics》;2.《Cross-Modal Retrieval with Correspondence Autoencoder and Multi-Level Fusion》;3.《Dual-Path Multi-Modal Attention-Based Networks for Sketch-Based Image Retrieval》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论