- 简介"Temporal video grounding(TVG)"是视频内容理解中的关键任务,需要在视频内容和自然语言指令之间进行精确的对齐。尽管现有方法取得了显著进展,但仍面临管理突出对象的置信度偏见和捕捉视频序列中长期依赖关系的挑战。为了解决这些问题,我们介绍了SpikeMba:一种用于时态视频定位的多模态脉冲显著性短蛇。我们的方法将脉冲神经网络(SNN)与状态空间模型(SSM)相结合,利用它们在处理任务不同方面的独特优势。具体而言,我们使用SNN开发脉冲显著性检测器,生成提议集。当输入信号超过预定义阈值时,检测器会发出脉冲信号,从而产生动态和二进制显著性提议集。为了增强模型保留和推断上下文信息的能力,我们引入相关插槽,即学习张量,编码先前知识。这些插槽与上下文时刻推理器配合使用,以动态地保持保留上下文信息和探索语义相关性之间的平衡。SSM促进选择性信息传播,解决了视频内容中长期依赖性的挑战。通过将SNN用于提议生成和SSM用于有效的上下文推理相结合,SpikeMba解决了置信度偏见和长期依赖性,从而显著增强了细粒度多模态关系捕捉。我们的实验表明了SpikeMba的有效性,它在主流基准测试中始终优于现有最先进方法。
- 图表
- 解决问题本文旨在解决视频内容理解中的时间对齐问题,同时解决现有方法中存在的置信度偏见和长期依赖的挑战。
- 关键思路该论文提出了一种融合脉冲神经网络和状态空间模型的多模式脉冲显著性mamba方法,通过使用脉冲神经网络生成提议集合,并使用状态空间模型促进选择性信息传播,从而解决置信度偏见和长期依赖的挑战。
- 其它亮点该论文的实验表明,SpikeMba方法在主流基准测试中始终优于现有的最先进方法。此外,该论文还引入了相关插槽,以学习张量,从而编码先前的知识,并使用上下文时刻推理器来动态地保留和推断上下文信息,进一步增强了模型的能力。
- 最近的相关研究包括:《A Dual-Stream Spatio-Temporal Neural Network for Fine-Grained Action Detection》、《Temporal Action Localization with Pyramid of Score Distribution Features》等。
沙发等你来抢
去评论
评论
沙发等你来抢