- 简介本文提出了一种名为“知识整合到HOI(KI2HOI)”的新型框架,旨在有效地将视觉语言模型的知识整合到零样本HOI检测中,从而定位图像中的人-物对并识别它们的交互类别。与现有方法主要依赖于大量手动HOI注释的监督学习不同,本文的动词特征学习模块基于视觉语义设计,通过使用动词提取解码器将相应的动词查询转换为特定于交互的类别表示。我们开发了一种有效的加性自注意机制来生成更全面的视觉表示。此外,创新的交互表示解码器通过交叉注意机制将空间和视觉特征信息整合起来,有效地提取信息丰富的区域。为了处理低数据情况下的零样本学习,我们利用CLIP文本编码器的先验知识初始化线性分类器,以增强交互理解。在主流的HICO-DET和V-COCO数据集上进行的广泛实验表明,我们的模型在各种零样本和完全监督设置中均优于先前的方法。
- 图表
- 解决问题本文旨在提出一种新的框架,名为KI2HOI,通过有效地将视觉语言模型的知识集成到零样本HOI检测中,从而定位人-物体对并识别它们的交互类别。
- 关键思路本文的关键思路是设计基于视觉语义的动词特征学习模块,采用动词提取解码器将相应的动词查询转换为交互特定类别表示,并开发一种有效的加性自我注意机制来生成更全面的视觉表示。
- 其它亮点本文的亮点包括创新的交互表示解码器,通过交叉注意机制将空间和视觉特征信息集成在一起,以提取信息丰富的区域;在低数据的零样本学习中利用来自CLIP文本编码器的先验知识来初始化线性分类器,以增强交互理解;在主流数据集HICO-DET和V-COCO上进行了广泛的实验,证明了本模型在各种零样本和全监督设置中优于以前的方法。
- 最近在这个领域中,还有一些相关的研究,例如《HOI Transformer: Towards Interpretable Human-Object Interaction Detection》和《Few-Shot Human-Object Interaction Detection with Model-Agnostic Meta-Learning》。
沙发等你来抢
去评论
评论
沙发等你来抢