- 简介大型视觉语言模型(VLM)现在是包括视觉问答、物体识别和空间指代在内的多项任务的事实上的最先进技术。在本文中,我们提出了HOI-Ref任务,旨在使用VLMs理解手和物体之间的交互,针对自我中心图像。为了实现HOI-Ref,我们策划了HOI-QA数据集,其中包含3.9M个用于训练和评估VLM的问题-回答对。HOI-QA包括有关定位手、物体以及它们之间关系的问题(例如,指涉手操作的物体)。我们在此数据集上训练了第一个用于HOI-Ref的VLM,称为VLM4HOI。我们的结果表明,针对第三人称图像进行指代训练的VLM不能识别和指涉自我中心图像中的手和物体。当在我们的自我中心HOI-QA数据集上进行微调时,性能提高了27.9%,用于指涉手和物体,并且提高了26.7%,用于指涉交互。
-
- 图表
- 解决问题本文提出了一种新的任务HOI-Ref,旨在通过VLMs理解手和物体之间的交互,特别是在自我中心图像中。同时,为了实现这一任务,我们创建了HOI-QA数据集,包含390万个问题-答案对,用于训练和评估VLMs。
- 关键思路本文的关键思路是使用VLMs解决HOI-Ref任务,并在HOI-QA数据集上进行fine-tune,从而提高在自我中心图像中识别和引用手和物体以及它们之间交互的准确性。
- 其它亮点本文的亮点包括:1. 提出了一个新的任务HOI-Ref,为自我中心图像中的手和物体之间交互的理解提供了新的思路;2. 创建了一个大规模的HOI-QA数据集,包含390万个问题-答案对,可用于训练和评估VLMs;3. 实验结果表明,在HOI-QA数据集上进行fine-tune可以显著提高在自我中心图像中识别和引用手和物体以及它们之间交互的准确性。
- 最近的相关研究包括:1. Visual Question Answering (VQA)任务,旨在回答与图像相关的自然语言问题;2. HOI任务,旨在理解人类与物体之间的交互;3. 大规模视觉语言模型(VLMs),如GPT和BERT,已成为多种任务的最先进方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流