Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model

简介

人-物互动（HOI）检测旨在定位人-物对并理解它们之间的互动。最近，基于两阶段变压器的方法表现出竞争力。然而，这些方法经常关注物体外观特征，忽略全局上下文信息。此外，视觉-语言模型CLIP有效地对齐了视觉和文本嵌入，在零样本HOI检测方面显示出巨大潜力。基于前述事实，我们介绍了一种名为ISA-HOI的新型HOI检测器，它广泛利用了来自CLIP的知识，对齐了视觉和文本特征之间的交互语义。我们首先提取图像的全局上下文和物体的局部特征，以提高图像中的交互特征。另一方面，我们提出了一个动词语义改进（VSI）模块，通过跨模态融合增强动词标签的文本特征。最终，我们的方法在HICO-DET和V-COCO基准测试中取得了有竞争力的结果，训练迭代次数更少，并在零样本设置下优于现有技术水平。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决人-物交互检测中忽略全局上下文信息的问题，并提出一种基于CLIP的新型检测器ISA-HOI
关键思路

ISA-HOI利用CLIP对视觉和文本特征进行交互语义对齐，提出了IF和VSI模块来提高交互特征和动词标签的语义表示
其它亮点

ISA-HOI在HICO-DET和V-COCO基准测试中取得了竞争性结果，并在零样本设置下优于现有技术，而且使用更少的训练轮次
相关研究

最近的相关研究包括：Two-Stage Transformer-Based Methods for HOI Detection和Vision-Language Model CLIP

Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model

提问交流

提问交流