FocusCLIP: Multimodal Subject-Level Guidance for Zero-Shot Transfer in Human-Centric Tasks

简介

我们提出了FocusCLIP，将主题级别的指导（一种针对特定目标的专门机制）集成到CLIP框架中，以改进人类中心任务的零样本转移。我们的新贡献增强了CLIP的视觉和文本方面。在视觉方面，我们结合了ROI热图来模拟人类视觉注意机制，以强调与主题相关的图像区域。在文本方面，我们引入人体姿势描述来提供丰富的上下文信息。对于人类中心任务，FocusCLIP是使用MPII Human Pose数据集中的图像进行训练的。所提出的方法在覆盖三个人类中心任务的五个以前未见过的数据集中平均超过CLIP 8.61％。FocusCLIP的平均准确率为33.65％，而CLIP的平均准确率为25.04％。我们观察到活动识别的改进为3.98％，年龄分类的改进为14.78％，情感识别的改进为7.06％。此外，使用我们提出的单次LLM提示策略，我们发布了一个高质量的MPII Pose Descriptions数据集，以鼓励进一步研究人类中心任务的多模态学习。此外，我们还展示了我们的主题级别监督对非人类中心任务的有效性。FocusCLIP在使用CUB数据集进行零样本鸟类分类时比CLIP提高了2.47％。我们的研究结果强调了将主题级别指导与通用预训练方法集成以增强下游性能的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种新的方法，即将主题级别的指导与预训练方法相结合，以提高人类中心任务的零样本转移性能。
关键思路

论文提出了一种名为FocusCLIP的方法，该方法将ROI热图和人体姿态描述结合到CLIP框架中，以提高人类中心任务的性能。
其它亮点

论文的实验结果表明，FocusCLIP在三项人类中心任务中的平均准确率比CLIP高8.61％，并在零样本鸟类分类任务中也表现出良好的性能。此外，论文还发布了高质量的MPII姿势描述数据集，并提供了开源代码。
相关研究

与本论文相关的研究包括CLIP和其它预训练模型，以及人类中心任务和零样本学习的相关研究。

FocusCLIP: Multimodal Subject-Level Guidance for Zero-Shot Transfer in Human-Centric Tasks

提问交流

提问交流