Learning from Observer Gaze:Zero-Shot Attention Prediction Oriented by Human-Object Interaction Recognition

简介

现有的注意力预测研究大多集中在人和物体等显著实例上。然而，更复杂的基于交互的注意力，即由人类观察者对实例之间交互的理解所引起的注意力，仍然很少被探索。这对于推进人机交互和以人为中心的人工智能同样至关重要。为了弥合这一差距，我们首先收集了一个名为IG的新型凝视点数据集，包括740个不同的交互类别，共计530,000个凝视点，捕捉人类观察者在交互的认知过程中的视觉注意力。随后，我们引入了零样本交互导向注意力预测任务ZeroIA，该任务要求模型预测在训练过程中未遇到的交互的视觉线索。第三，我们提出了交互式注意力模型IA，旨在模拟人类观察者的认知过程来解决ZeroIA问题。广泛的实验表明，所提出的IA在ZeroIA和完全监督设置下均优于其他最先进的方法。最后，我们努力将交互导向的注意力应用于交互识别任务本身。进一步的实验结果表明，通过将IG中的真实人类注意力数据和IA生成的注意力标签纳入现有最先进的HOI模型，可以提高模型的性能和可解释性。
图表
解决问题

本文尝试解决复杂交互注意力的问题，即人类观察者在理解实例之间的交互时的视觉注意力问题，并提出了一个新的数据集和任务来挑战模型
关键思路

本文提出了交互式注意力模型IA，旨在模拟人类观察者的认知过程来解决新提出的零样本交互注意力预测任务ZeroIA
其它亮点

本文提出了一个新的数据集IG，包含了多达740个不同的交互类别，以捕捉人类观察者在交互认知过程中的视觉注意力；提出了一个新的零样本交互注意力预测任务ZeroIA，并提出了交互式注意力模型IA来解决这个任务；实验结果表明，IA模型在零样本和完全监督设置下均优于其他现有方法；本文还尝试将交互注意力应用于交互识别任务本身，以提高现有HOI模型的性能和可解释性
相关研究

最近的相关研究包括：《HOI Transformer: Towards Interpretable Human-Object Interaction Recognition》、《Attention Is All You Need》、《Visual Attention Models for Human Action Recognition》等

Learning from Observer Gaze:Zero-Shot Attention Prediction Oriented by Human-Object Interaction Recognition

评论