- 简介视觉目标跟踪主要基于可见光图像序列,但在复杂场景中,如低光条件、高动态范围和背景杂波等方面面临着许多挑战。为了解决这些挑战,结合多种视觉模态的优势是实现可靠目标跟踪的有希望的解决方案。然而,现有方法通常通过自适应局部特征交互来集成多模态输入,这不能充分利用视觉线索的全部潜力,从而导致特征建模不足。在本研究中,我们提出了一种利用基于帧事件的数据进行可靠单目标跟踪的新型多模态混合跟踪器(MMHT)模型。MMHT模型采用由人工神经网络(ANN)和脉冲神经网络(SNN)组成的混合骨干,从不同的视觉模态中提取主导特征,然后使用统一编码器对不同领域的特征进行对齐。此外,我们提出了一个增强的基于Transformer的模块,使用注意机制融合多模态特征。通过这些方法,MMHT模型可以有效地构建多尺度和多维度的视觉特征空间,并实现判别特征建模。广泛的实验表明,与其他最先进的方法相比,MMHT模型表现出竞争性能。总的来说,我们的结果突出了MMHT模型在解决视觉目标跟踪任务中面临的挑战方面的有效性。
- 图表
- 解决问题本论文旨在解决可见光图像序列在复杂场景下进行视觉物体跟踪时遇到的挑战,如低光条件、高动态范围和背景杂波等,通过融合多种视觉模态来实现可靠的物体跟踪。
- 关键思路本文提出了一种新的多模态混合跟踪器(MMHT)方案,利用基于帧事件的数据实现单个物体的可靠跟踪。MMHT模型采用由人工神经网络(ANN)和脉冲神经网络(SNN)组成的混合骨干来提取不同视觉模态的主要特征,然后使用统一编码器来对齐不同域的特征。此外,本文提出了一种增强的基于Transformer的模块,使用注意机制来融合多模态特征。通过这些方法,MMHT模型能够有效构建多尺度和多维度的视觉特征空间,并实现判别特征建模。
- 其它亮点本文的亮点包括:提出了一种新的多模态混合跟踪器(MMHT)方案,能够有效构建多尺度和多维度的视觉特征空间,并实现判别特征建模;通过实验验证了MMHT模型在可靠物体跟踪方面的竞争性表现;
- 与本文相关的研究包括:多模态物体跟踪的研究,基于Transformer的特征融合方法等。
沙发等你来抢
去评论
评论
沙发等你来抢