- 简介人-物互动(HOI)检测旨在定位人-物对并理解它们之间的互动。最近,基于两阶段变压器的方法表现出竞争力。然而,这些方法经常关注物体外观特征,忽略全局上下文信息。此外,视觉-语言模型CLIP有效地对齐了视觉和文本嵌入,在零样本HOI检测方面显示出巨大潜力。基于前述事实,我们介绍了一种名为ISA-HOI的新型HOI检测器,它广泛利用了来自CLIP的知识,对齐了视觉和文本特征之间的交互语义。我们首先提取图像的全局上下文和物体的局部特征,以提高图像中的交互特征。另一方面,我们提出了一个动词语义改进(VSI)模块,通过跨模态融合增强动词标签的文本特征。最终,我们的方法在HICO-DET和V-COCO基准测试中取得了有竞争力的结果,训练迭代次数更少,并在零样本设置下优于现有技术水平。
-
- 图表
- 解决问题论文旨在解决人-物交互检测中忽略全局上下文信息的问题,并提出一种基于CLIP的新型检测器ISA-HOI
- 关键思路ISA-HOI利用CLIP对视觉和文本特征进行交互语义对齐,提出了IF和VSI模块来提高交互特征和动词标签的语义表示
- 其它亮点ISA-HOI在HICO-DET和V-COCO基准测试中取得了竞争性结果,并在零样本设置下优于现有技术,而且使用更少的训练轮次
- 最近的相关研究包括:Two-Stage Transformer-Based Methods for HOI Detection和Vision-Language Model CLIP
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流