- 简介Text-based Person Retrieval(TPR)旨在根据文本查询返回与描述相符的人物图像。TPR模型的性能提升依赖于高质量的监督训练数据。然而,由于昂贵的注释和隐私保护,构建大规模、高质量的TPR数据集很困难。最近,大型语言模型(LLMs)在许多NLP任务上已经接近甚至超过了人类表现,为扩展高质量的TPR数据集创造了可能性。本文提出了一种基于LLMs的数据增强(LLM-DA)方法用于TPR。LLM-DA使用LLMs重写当前TPR数据集中的文本,以简洁高效的方式实现高质量的数据集扩展。这些重写的文本能够增加词汇和句子结构的多样性,同时保留原始的关键概念和语义信息。为了缓解LLMs的幻觉,LLM-DA引入了文本忠实度过滤器(TFF)来过滤不忠实的重写文本。为了平衡原始文本和增强文本的贡献,提出了一个平衡的抽样策略(BSS)来控制用于训练的原始文本和增强文本的比例。LLM-DA是一种即插即用的方法,可以轻松集成到各种TPR模型中。在三个TPR基准测试上的综合实验表明,LLM-DA能够提高当前TPR模型的检索性能。
- 图表
- 解决问题本论文旨在解决文本描述查找人物图像的问题,并提出了一种基于大型语言模型的数据增强方法。
- 关键思路该方法使用大型语言模型重新编写当前TPR数据集中的文本,从而实现高质量的数据集扩展。通过引入文本忠实度过滤器和平衡采样策略,可以减轻大型语言模型的幻觉,并平衡原始文本和增强文本的贡献。
- 其它亮点论文提出的LLM-DA方法可以有效地扩展TPR数据集并提高现有模型的检索性能。实验结果表明,该方法在三个TPR基准测试中均取得了良好的表现。
- 最近的相关研究包括使用深度学习模型进行图像检索和文本生成的方法,以及使用图像生成模型进行图像检索的方法。
沙发等你来抢
去评论
评论
沙发等你来抢